Spark机器学习:核心技术与实践
(副标题):无 ;
(作者): Alex Tellez,Michal Malohlava ;
内容简介:
1.3 H2O.ai简介
H2O是一个开源机器学习平台,在Spark上运行得非常好。事实上它是第一批被Spark认证的第三方扩展包。
Sparkling Water(H2O+Spark)把H2O平台整合进Spark,因此同时具有H2O的机器学习能力和Spark的全部功能,也就是说,用户可以在Spark RDD/DataFrame上运行H2O算法,既可以出于实验目的,也可以用于部署。之所以成为可能,是因为H2O和Spark共享JVM,因此在两个平台之间,数据可以无缝传输。H2O以H2O frame的格式存储数据,是Spark RDD/DataFrame经过列压缩后的数据集表示形式。本书的很多地方都会引用Spark MLlib和H2O平台的算法来展示怎样通过同时使用两者来就一个给定的任务得到最好的结果。
Sparkling Water的功能简要包括:
·在Spark工作流中使用H2O算法;
·在Spark和H2O数据结构之间做数据转换;
·使用Spark RDD/DataFrame作为H2O算法输入;
·使用H2O frame作为MLlib算法输入(在我们以后做特征工程时会很方便);
·在Spark上透明执行Sparkling Water程序(比如,我们可以在Spark Streaming内运行Sparkling Water程序);
·使用H2O用户界面来浏览Spark数据。
Sparkling Water的设计
Sparkling Water设计为一个普通的Spark程序运行。因此,它作为一个程序提交给Spark,在Spark执行器中启动。随后H2O启动它的各种服务,包括一个键值(K/V)存储器(key-value store)和一个内存管理器,并把它们组织成一个云,其拓扑和底层的Spark集群拓扑一致。
如前所述,Sparkling Water支持在
目录预览:
Spark机器学习:核心技术与实践
第1章 大规模机器学习和Spark入门
1.1 数据科学
1.2 数据科学家:21世纪最炫酷的职业
1.2.1 数据科学家的一天
1.2.2 大数据处理
1.2.3 分布式环境下的机器学习算法
1.2.4 将数据拆分到多台机器
1.2.5 从Hadoop MapReduce到Spark
1.2.6 什么是Databricks
1.2.7 Spark包含的内容
1.3 H2O.ai简介
1.4 H2O和Spark MLlib的区别
1.5 数据整理
1.6 数据科学:一个迭代过程
1.7 小结
第2章 探索暗物质:希格斯玻色子
2.1 Ⅰ型错误与Ⅱ型错误
2.1.1 寻找希格斯玻色子
2.1.2 LHC和数据的创建
........