Spark内核设计的艺术:架构设计与实现

admin 2022年11月13日 164次浏览

Spark内核设计的艺术:架构设计与实现

(副标题):无 ;

(作者): 耿嘉安 ;

内容简介:

​ 4.1 SparkContext概述
Spark应用程序的提交离不开Spark Driver,后者是驱动应用程序在Spark集群上执行的原动力。了解Spark Driver的初始化,有助于读者理解Spark应用程序与Spark Driver的关系。
Spark Driver的初始化始终围绕着SparkContext的初始化。SparkContext可以算得上是Spark应用程序的发动机引擎,轿车要想跑起来,首先要启动发动机。SparkContext初始化完毕,才能向Spark集群提交应用程序。发动机只需以较低的转速,就可以在平坦的公路上游刃有余;在山区,你可能需要一台能够提供大功率的发动机,才能满足你转山的体验。发动机的参数都是通过驾驶员操作油门、档位等传送给发动机的,而SparkContext的配置参数则由SparkConf负责,SparkConf就是你的操作面板。
SparkContext是Spark中的元老级API,从0.x.x版本就已经存在。有过Spark使用经验的部分读者也许感觉SparkContext已经太老了,然而SparkContext始终跟随着Spark的迭代不断向前。SparkContext的内部“血液”也发生了很多翻天覆地的变化,有些内部组件废弃了,有些内部组件有了一些优化,而且还会不断地输入一些新鲜的“血液”。希望刚才这些描述没有吓到Spark的老用户,因为Spark的灵魂——Spark核心原理,依然是那么令人熟悉。
在讲解SparkContext的初始化过程之前,我们先来认识下SparkContext中的各个组成部分,如图4-1所示。

图4-1 SparkContext的组成[1]
从图4-1可以知道,SparkContext主要由以下部分组成。
·SparkEnv:Spark运行时环境。Executor是处理任务的执行器

目录预览:

​ Spark内核设计的艺术:架构设计与实现
第1章 环境准备
1.1 运行环境准备
1.1.1 安装JDK
1.1.2 安装Scala
1.1.3 安装Spark
1.2 Spark初体验
1.2.1 运行spark-shell
1.2.2 执行word count
1.2.3 剖析spark-shell
1.3 阅读环境准备
1.3.1 安装SBT
1.3.2 安装Git
1.3.3 安装Eclipse Scala IDE插件
1.4 Spark源码编译与调试
1.5 小结
第2章 设计理念与基本架构
2.1 初识Spark
2.1.1 Hadoop MRv1的局限
2.1.2 Spark的特点
........


[EPUB下载]