Cloudera Hadoop大数据平台实战指南
(副标题):无 ;
(作者): 宋立桓、陈建平 ;
内容简介:
第1章 大数据概述
在信息传播极其迅速的今天,各种数据渗透我们的生活,并以指数级的速度增长。数据爆炸将我们带入大数据时代,大数据已经蔓延到社会的各行各业,从而影响着我们的学习、工作、生活以及社会的发展,因此大数据的相关研究受到中央和地方政府、各大科研机构和各类企业的高度关注。
最早提出“大数据时代到来”的是全球顶级管理咨询公司麦肯锡。麦肯锡宣称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
真正把大数据推向公众视野的是牛津大学教授维克托。他潜心研究大数据10年,成为最早洞见大数据时代发展趋势的科学家之一,他的《大数据时代》专著是国际大数据研究先河之作。维克托思维的深邃之处在于,他明确指出了大数据时代处理数据理念上的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。
1.1 大数据时代的数据特点
在2015年贵阳国际大数据产业博览会暨全球大数据时代贵阳峰会(以下简称“数博会”)上,阿里巴巴董事局主席马云发表主题演讲。马云在数博会上系统阐述了“DT(Data Technology,数据技术)时代”的特点,DT时代把机器变成人,而这也将改变制造业的局面,释放更多企业的活力——“未来的制造业要的不是石油,它最大的能源是数据”。
凭智商做判断过时了,未来拼的是大数据,那么何为大数据呢?一般认为,大数据主要具有四方面的典型特征——规模性(Volume)、多样性(Variety)、高速性(Velocity)和价值性(Value),即所谓的“4V”。
(1)规模性,即大数据具有相当的规模,其数据量非常巨大。淘宝网近4亿的会员每天产生的商品交易数据约20TB,Facebook(脸书)约10亿的用户每天产生的日志数据超过300TB。数据的数量级别可划分为B、KB、MB
目录预览:
Cloudera Hadoop大数据平台实战指南
第1章 大数据概述
第2章 Cloudera大数据平台介绍
第3章 Cloudera Manager及CDH离线安装部署
第4章 分布式文件系统HDFS
第5章 分布式计算框架MapReduce
第6章 资源管理调度框架YARN
第7章 数据仓库Hive
第8章 数据迁移工具Sqoop
第9章 分布式数据库HBase
第10章 分布式协调服务ZooKeeper
第11章 准实时分析系统Impala
第12章 日志采集工具Flume
第13章 分布式消息系统Kafka
第14章 大数据ETL工具Kettle
第15章 大规模数据处理计算引擎Spark
第16章 大数据全栈式开发语言Python
第17章 大数据实战案例:实时数据流处理项目
第18章 大数据实战案例:用户日志综合分析项目