Hadoop大数据实战权威指南
(副标题):无 ;
(作者): 黄东军 ;
内容简介:
4.1 HDFS概述
4.1.1 特点
HDFS的设计前提和目标如下:
(1)专为存储超大文件而设计:HDFS应该能够支持GB级别大小的文件;它应该能够提供很大的数据带宽并且能够在集群中拓展到成百上千个节点;它的一个实例应该能够支持千万数量级别的文件。
(2)适用于流式的数据访问:HDFS适合批处理的情况而不是交互式处理;它的重点是保证高吞吐量而不是低延迟的用户响应。
(3)容错性:完善的冗余备份机制。
(4)支持简单的一致性模型:HDFS需要支持一次写入多次读取的模型,而且在写入过程中文件不会经常变化。
(5)移动计算优于移动数据:HDFS可以将计算移动到离它最近数据位置的接口。
(6)兼容各种硬件和软件平台。
HDFS不适合的场景如下:
(1)大量小文件:文件的元数据都存储在NameNode中,大量小文件意味着元数据的增加,会占用大量内存。
(2)低延迟数据访问:HDFS是专门针对高数据吞吐量而设计的。
(3)多用户写入:因为会导致一致性维护的困难。
4.1.2 主要组件与架构
HDFS主要由3个组件构成,分别是NameNode、SecondaryNameNode和DataNode,HDFS是以Master-Slave(主从)模式运行的,其中NameNode、SecondaryNameNode运行在Master上节点,DataNode运行Slave节点上。
NameNode和DataNode架构如图4-1所示。
图4-1 NameNode和DataNode架构
目录预览:
Hadoop大数据实战权威指南(第2版)
第一篇 大数据的基本概念和技术
1.1 大数据的时代背景
1.2 大数据的基本概念和特征
1.3 大数据系统的技术支撑体系
1.4 大数据领域的主要职位及其能力要求
1.5 本章小结
第2章 Hadoop大数据关键技术
2.1 Hadoop大数据应用生态系统
2.2 大数据采集技术
2.3 大数据存储技术
2.4 分布式计算框架
2.5 数据分析平台与工具
2.6 本章小结
第二篇 Hadoop大数据平台搭建与基本应用
3.1 Linux操作系统
3.2 Linux集群的搭建
3.3 集群的配置
3.4 Linux基本命令
3.5 本章小结
........