Spark项目落地实战以及日常大数据开发注意事项

Spark简介

基于内存的分布式集群计算平台

可适配 Python、Java、Scala、SQL

拓展功能：机器学习、流式计算、图计算

Spark特点

高效

内存计算引擎
DAG图
比MapReduce快10～100倍

易用

提供丰富的API，支持Java，Scala， Python
代码量小

与Hadoop集成

读写HDFS、Hbase、Hive
和Yarn集成

与Oracle存过的对比

Spark应用场景

数据仓库
机器学习
海量数据离线分析
实时数据流处理

基本概念

集群架构

集群资源管理器（Cluster Manager）
运行作业任务的工作节点（Worker Node）
每个应用的任务控制节点（Driver）
每个工作节点上负责具体任务的执行进程（Executor）
资源管理器Mesos或YARN

任务执行流程

首先为应用构建起基本的运行环境，即由 Driver创建一个SparkContext，进行资源的申请、任务的分配和监控
资源管理器为Executor分配资源，并启动 Executor进程
SparkContext根据RDD的依赖关系构建 DAG图，DAG图提交给DAGScheduler解析成Stage，然后把一个个TaskSet提交给底层调度器TaskScheduler处理； Executor向SparkContext申请Task，Task Scheduler将Task发放给Executor运行，并提供应用程序代码
Task在Executor上运行，把执行结果反馈给TaskScheduler，然后反馈给 DAGScheduler，运行完毕后写入数据并释放所有资源。

数据处理过程

读入外部数据源
转换算子进行数据处理
动作算子进行处理流程触发
处理完成输出结果

常用算子-转换

开发案例–集团电信三码低效资产分析

Spark很香、也很坑

坑1：无法自定义自增序列

坑2：Spark Stage之间的血缘冗长

坑3：直连Oracle读取慢

坑4：时间格式支持不友好

常见问题1-无法自定义自增序列

问题阐述：

在不同的业务逻辑中，由于会存在多种维度的分析，但是他们的结果是写入到同一张表格中的。在oracle中执行的时候是根据oracle中定义的序列来保证ID的唯一性，但是我们代码实现的时候采用的数据加载模式时无法加载oracle中的序列，并且读取序列也会收到oracle序列缓冲的影响。所以在业务逻辑处理上我们得自己定义一个属于我们业务的ID序列，并且需要保证唯一性。