深度实践Spark机器学习

(副标题)：无 ;

(作者): 吴茂贵 ;

内容简介：

3.1　Pipeline简介
ML提倡使用Pipeline，一般翻译为流水线，以便将多种算法更容易地组合成单个流水线或工作流程。一个Pipeline在结构上会包含一个或多个Stage，每一个Stage都会完成一个任务，如数据处理、数据转化、模型训练、参数设置或数据预测等，其中两个主要的Stage为Transformer和Estimator。Transformer主要是用来操作一个DataFrame数据并生成另外一个DataFrame数据，比如决策树模型、一个特征提取工具，都可以抽象为一个Transformer。Estimator则主要是用来做模型拟合，用来生成一个Transformer。这些Stage有序组成一个Pipeline。与Pieline相关的概念有：DataFrame、Transformer、Estimator、Parameter等。

目录预览：

深度实践Spark机器学习
第1章了解机器学习
1.1 机器学习的定义
1.2 大数据与机器学习
1.3 机器学习、人工智能及深度学习
1.4 机器学习的基本任务
1.5 如何选择合适算法
1.6 Spark在机器学习方面的优势
1.7 小结
第2章构建Spark机器学习系统
2.1 机器学习系统架构
2.2 启动集群
2.3 加载数据
2.4 探索数据
2.4.1 数据统计信息
2.4.2 数据质量分析
2.4.3 数据特征分析
2.4.4 数据的可视化
2.5 数据预处理
2.5.1 数据清理
........

[EPUB下载]