HAWQ数据仓库与数据挖掘实战

admin 2022年11月13日 158次浏览

HAWQ数据仓库与数据挖掘实战

(副标题):无 ;

(作者): 王雪迎 ;

内容简介:

​ 第1章◄HAWQ概述►
HAWQ的全称为Hadoop With Query,即带查询的Hadoop,是一个出色的SQL-on-Hadoop解决方案,尤其适合构建Hadoop数据仓库。它最初由Pivotal公司开发,后来贡献给Apache社区,成为孵化器项目。本章是对HAWQ的一个概要介绍。首先对SQL-on-Hadoop的功能需求有个基本认识,然后以此作为参照,说明HAWQ的功能特性。为了更好地使用HAWQ,我们需要了解它的整体系统架构,以及各组件所起的作用。本章最后将阐述选择HAWQ的理由。
1.1 SQL-on-Hadoop
过去几年里,许多企业和开发者已慢慢接受Hadoop生态系统,将它用作大数据分析堆栈的核心组件。尽管Hadoop生态系统的MapReduce组件是一个强大的典范,但随着时间的推移,MapReduce自身不再是连接存储在Hadoop生态系统中的数据的最简单途径。企业需要一种更简单的方式来访问要查询、分析甚至要执行深度挖掘的数据,以便发现存储在Hadoop中的所有数据的真正价值。SQL以其扎实的理论基础、简单的语法、丰富的语义得到广泛应用,在帮助各类用户发掘数据的商业价值领域具有很长历史。
Hadoop上的SQL支持一开始是Apache Hive,一种类似于SQL的查询引擎,它将有限的SQL方言编译到MapReduce中。Hive对MapReduce的完全依赖会导致严重的查询延迟,因此其主要适用场景是批处理模式。另外,尽管Hive对于SQL的支持是好的开端,但对SQL的有限支持意味着精通SQL的用户忙于企业级使用场景时将遇到严重的限制。它还暗示着庞大的基于标准SQL的工具生态系统无法利用Hive。值得庆幸的是,在为SQL-on-Hadoop提供更好的解决方案方面已取得长足进展。除Hive外,当前常见的框架已经有HAWQ、Impala、Presto

目录预览:

​ HAWQ数据仓库与数据挖掘实战
第1章 ◄HAWQ概述►
第2章 ◄HAWQ安装部署►
第3章 ◄连接管理►
第4章 ◄数据库对象管理►
第5章 ◄分区表►
第6章 ◄存储管理►
第7章 ◄资源管理►
第8章 ◄数据管理►
第9章 ◄过程语言►
第10章 ◄查询优化►
第11章 ◄高可用性►
第二部分 HAWQ实战演练
第12章 ◄建立数据仓库示例模型►
第13章 ◄初始ETL►
第14章 ◄定期ETL►
第15章 ◄自动调度执行ETL作业►
第16章 ◄维度表技术►
第17章 ◄事实表技术►
第18章 ◄联机分析处理►
........


[EPUB下载]