Hadoop大数据挖掘从入门到进阶实战
(副标题):无 ;
(作者): 邓杰 ;
内容简介:
3.1.1 背景概述
Sqoop是Apache软件基金会的一款顶级开源数据传输工具,用于在Hadoop与关系型数据库(如MySQL、Oracle、PostgreSQL等)之间进行数据传递。它可以将关系型数据中的数据导入到Hadoop的分布式文件系统(HDFS)中,也可以将分布式文件系统(HDFS)中的数据导出到关系型数据库中。
Sqoop的自动化流程,依赖于被导入的数据库表结构。Sqoop使用MapReduce计算框架来完成数据的导入和导出,并提供了并行操作和容错性。数据传输过程如图3-1所示。
通过Sqoop读取(Load)关系型数据库(Relational Database Management System,RDBMS)中的数据,然后将所读取的数据导入(Import)到分布式文件系统(HadoopDistributed File System,HDFS)中。
反之,也可以使用Sqoop读取分布式文件系统中的数据,然后将所读取的数据导出(Export)到关系型数据库中。
图3-1 Sqoop数据传递过程
目录预览:
Hadoop大数据挖掘从入门到进阶实战(视频教学版)
第1章 集群及开发环境搭建
1.1 环境准备
1.1.1 基础软件下载
1.1.2 准备Linux操作系统
1.2 安装Hadoop
1.2.1 基础环境配置
1.2.2 Zookeeper部署
1.2.3 Hadoop部署
1.2.4 效果验证
1.2.5 集群架构详解
1.3 Hadoop版Hello World
1.3.1 Hadoop Shell介绍
1.3.2 WordCount初体验
1.4 开发环境
1.4.1 搭建本地开发环境
1.4.2 运行及调试预览
1.5 小结
第2章 实战:快速构建一个Hadoop项目并线上运行
2.1 构建一个简单的项目工程
........