RDD
RDD,弹性分布式数据集(Resilient Distributed Dataset)是spark的核心概念,它是集群中跨多个机器分区存储的一个只读对象集合,弹性指spark可以通过重新安排计算来自动重建丢失的分区。在spark程序中,一般加载一个或多个RDD作为输入,通过一系列转换得到一组目标RDD,然后将这些RDD计算出结果或者写入持久存储器。
加载RDD或执行转换并不会立即触发任何数据处理的操作,只是创建一个计算计划。只有对RDD执行某个动作(如foreach)时,才会触发真正的计算。通过rdd的map()方法可以对RDD的每个元素应用某个函数,filter()方法的输入是一个过滤谓词,即返回布尔值的函数。
RDD 具有以下几个特点:
分布在集群中的只读对象集合,由多个 partition 构成,这些 partition 可能存储在不同机器上
RDD 可以存储在磁盘或内存中(多种存储级别),partition 可以全部存储在内存或磁盘上,也可以部分在内存中,部分在磁盘上
Spark 提供了大量 API 通过并行的方式构造和生成 RDD
失效后自动重构:Spark 通过记录 RDD 的血统,了解每个 RDD 的产生方式(包括父 RDD 以及计算方式),进而能够通过重算的方式构造因机器故障或磁盘损坏导致丢失的 RDD 数据
HDFS 的任何一个文件也可以认为是分布式数据集,但从一定程度上,HDFS 并不具有弹性,因为所有数据都存储在磁盘上。RDD 则可以将 Partition 部分存储在磁盘部分存储在内存。
转换和动作
转换(transformation)是从现有RDD生成新的RDD,动作(Action)触发对RDD的计算并对计算结果执行某种操作,要么返回给用户,要么保存到外部存储器中。动作的效果是立竿见影的,但转换不是,转换是惰性的,在对RDD执行一个动作之前不会为该RDD的任何转换操作采取实际行动。判断一个操作是转换还是动作,可以观察返回类型,如果返回的类型是RDD,那么它是一个转换,否则就是一个动作。
作业
Spark作业由任意多阶段(stages)有向无环图构成,有的阶段又被spark运行环境分解为多个任务(task),任务并行运行在分布于集群中的RDD分区上。作业始终运行在应用(application)上下文(SparkContext实例表示)中,它提供了RDD分组以及共享变量。一个应用可以串行或并行地运行多个作业,并为这些作业提供访问由同一应用的先前作业所缓存的RDD的机制。
Task:具体执行的任务,Task 分为 ShuffleMapTask 和 ResultTask 两种,分别类似于 Hadoop 中的 Map、Reduce
Job:用户提交的作业,一个 Job 可能由一到多个 Task 组成
Stage:Job 划分的阶段(stage),一个 Job 可能被划分为一到多个 stage
Partition:数据分区,一个 Rdd 数据可以划分为多个分区
NarrowDependency:窄依赖,子 RDD 依赖于父 RDD 中固定的 partition,NarrowDependency 分为 OneToOneDependency 和 RangeDependency 两种
ShuffleDependency:shuffle 依赖,也称为宽依赖,子 Rdd 对父 Rdd 中所有 Partition 都有依赖
DAG(Directed Acycle graph):有向无环图,用于描述 Rdd 之间的依赖关系
运行机制
Cluster Manager:在standalone模式中即为Master主节点,控制整个集群,监控worker。在YARN模式中为资源管理器
Worker节点:从节点,负责控制计算节点,启动Executor或者Driver。
Driver: 运行Application 的main()函数
Executor:执行器,是为某个Application运行在worker node上的一个进程
在最高层,spark有两个独立的实体:driver和executor。driver负责托管应用(SparkContext)并为作业调度提供任务。executor专属于应用,在应用运行期间运行,并执行该应用的任务。通常,driver作为一个不由集群管理器(cluster manager)管理的客户端来运行,而executor则运行在集群的计算机上。
作业提交
当对RDD执行一个动作(如count())时,会自动提交一个spark作业。从内部来看,它导致对SparkContext调用runJob(),然后调用传递给作为driver的一部分运行的调度程序。调度程序由两部分组成:DAG调度程序和任务调度程序。DAG调度程序把作业分解为若干阶段,并由这些阶段构成一个DAG。任务调度程序则负责把每个阶段中的任务提交到集群。
DAG的构建
stage中运行的任务分为两种类型:shuffle map和result任务。shuffle map任务类似于MapReduce中shuffle的map端部分。每个shuffle map任务在一个RDD分区上运行计算,并根据分区函数把输出写入一组新的分区中,以允许后面的stage取用(后面的阶段可能由shuffle map任务组成,也可能由result任务组成)。shuffle map任务运行在除最终阶段之外的其它所有阶段中。result任务运行在最终阶段,并将结果返回给用户程序(如count()的结果)。每个result任务在它自己的RDD分区上运行计算,然后把结果发送回driver,再由driver将每个分区的计算结果汇集成最终结果。简单的spark作业可能不需要shuffle,只有一个result任务构成stage,就像MapReduce中仅有map作业一样。
如果RDD已经被同一应用(SparkContext)中先前的作业持久化保存,那么DAG调度程序将会省掉一些工作,不会再创建stage来重新计算它或它的父RDD。
DAG调度程序负责将一个阶段分解为若干任务以提交给任务调度程序。DAG调度程序会为每个任务赋予一个位置偏好(placement preference),以允许任务调度程序充分利用数据本地化(data locality)。对于HDFS上的输入RDD分区来说,它的任务位置偏好就是托管了这些分区的数据块的datanode(称为node local),对于在内存中缓存的RDD分区,其任务的位置偏好是那些保存RDD分区的executor(称为process local)。
一旦DAG调度程序已构建一个完整的多阶段DAG,它就将每个阶段的任务集合提交给任务调度程序,子阶段只有在其父阶段成功完成后才能提交。
任务调度
当任务集合被发送到任务调度程序后,任务调度程序将该集合作为应用运行executor的列表,在斟酌位置偏好的同时构建任务到executor的映射。然后,任务调度程序将任务分配给具有可用内核的executor(如果同一应用中的另一个作业正在运行,则有可能分配不完整),并且在executor完成运行任务时继续分配更多的任务,直到任务集合全部完成。默认情况下,每个任务分配一个内核,可通过spark.task.cpus来更改。
任务调度程序在为某个executor分配任务时,首先分配的是进程本地(process local)任务,再分配节点本地(node local)任务,然后分配机架本地(rack local)任务,最后分配任意(非本地)任务或推测任务(speculative task)。
这些被分配的任务通过调度程序后端启动,调度程序后端向executor后端发送远程启动任务的消息,以告知executor开始运行任务。当任务启动或失败时,executor都会向driver发送状态更新消息。如果失败了,任务调度程序将在另一个executor上重新提交任务。若是启用了推测任务(默认不启动),它还会为运行缓慢的任务启动推测任务。
spark利用Akka(一个基于Actor的平台,akka.io/)来构建高度可扩展的事件驱动分布式应用,而不是使用Hadoop RPC进行远程调用。
任务执行
executor首先确保任务的jar包和文件依赖关系都是最新的,它在本地高速缓存中保留了先前任务已使用的所有依赖,只有在它们更新的情况下才会重新下载。然后,由于任务代码是以启动任务消息的一部分而发送的序列化字节,需要反序列化代码(包括用户自己的函数)。最后,执行任务代码,任务代码运行在与executor相同的JVM中,任务的启动没有进程开销。
执行结果被序列化并发送到executor后端,然后以状态更新消息的形式返回driver。shuffle map任务返回的是一些可以让下一阶段检索其输出分区的信息,而result任务则返回其运行的分区结果值,driver将这些结果值收集起来,并把最终结果返回给用户程序。
集群管理器
负责管理executor生命周期的是集群管理器(cluster manager),spark提供了多种不同特性的集群管理器。
本地模式
使用本地模式时,executor与driver运行在同一个JVM中,一般用于测试或小规模作业。这种模式的主URL为local(使用一个线程)、local[n](n个线程)或local(*)(机器的每个内核一个线程)
独立模式
独立模式是集群管理器的一个简单的分布式实现,它运行一个master以及一个或多个worker。当spark应用启动时,master要求worker代表应用生成多个executor进程。这种模式的主URL为spark://host:port。
Mesos模式
Apache Mesos是一个通用的集群资源管理器,它允许根据组织策略在不同的应用之间细化资源共享。默认情况下(细粒度模式),每个spark任务被当作一个Mesos任务运行。这样可以更有效地使用集群资源,但是以额外进程启动开销为代价。在粗粒度模式下,executor在进程中运行任务,spark应用运行期间的集群资源由executor进程来掌管。这种模式的主URL为mesos://host:port
YARN模式
YARN是Hadoop中使用的资源管理器,每个运行的Spark应用对应一个YARN应用实例,每个executor在自己的YARN容器中运行。这种模式的主URL为yarn-client或yarn-cluster。
Mesos和YARN集群管理器优于独立模式的集群管理器,因为它们考虑了集群上运行的其它应用(如MR作业)的资源需求,并统筹实施调度策略。此外,YARN是唯一能够与Hadoop的Kerberos安全机制集成的集群管理器。