Hadoop构建数据仓库实践

admin 2022年11月13日 160次浏览

Hadoop构建数据仓库实践

(副标题):无 ;

(作者): 王雪迎 ;

内容简介:

​ 第1章◄数据仓库简介►
对于每一种技术,先要理解相关的概念和它之所以出现的原因,这对于我们继续深入学习其技术细节大有裨益。本章将介绍数据仓库的定义,它和传统操作型数据库应用的区别,以及为什么我们需要数据仓库。
在对数据仓库的概念有了一个基本的认识后,向读者介绍四种常见的数据仓库架构,然后说明ETL这个重要的数据仓库概念。本章最后概要介绍对于一个数据仓库的基本需求和数据需求。
1.1 什么是数据仓库
数据仓库的概念可以追溯到20世纪80年代,当时IBM的研究人员开发出了“商业数据仓库”。本质上,数据仓库试图提供一种从操作型系统到决策支持环境的数据流架构模型。数据仓库概念的提出,是为了解决和这个数据流相关的各种问题,主要是解决多重数据复制带来的高成本问题。在没有数据仓库的时代,需要大量的冗余数据来支撑多个决策支持环境。在大组织里,多个决策支持环境独立运作是典型的情况。尽管每个环境服务于不同的用户,但这些环境经常需要大量相同的数据。处理过程收集、清洗、整合来自多个数据源的数据,并为每个决策支持环境做部分数据复制。数据源通常是早已存在的操作型系统,很多是遗留系统。此外,当一个新的决策支持环境形成时,操作型系统的数据经常被再次复用。用户访问这些处理后的数据。
1.1.1 数据仓库的定义
数据仓库之父Bill Inmon在1991年出版的Building the Data Warehouse一书中首次提出了被广为认可的数据仓库定义。Inmon将数据仓库描述为一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。这个定义有些复杂并且难以理解。下面我们将它分解开来进行说明。

面向主题

传统的操作型系统是围绕组织的功能性应用进行组织的,而数据仓库是面向主题的。主题是一个抽象概念,简单地说就是与业务相关的数据的类别,每一个主题基本对应一个宏观

目录预览:

​ Hadoop构建数据仓库实践
第1章 ◄数据仓库简介►
第2章 ◄数据仓库设计基础►
第3章 ◄Hadoop生态圈与数据仓库►
第4章 ◄安装Hadoop►
第5章 ◄Kettle与Hadoop►
第6章 ◄建立数据仓库示例模型►
第7章 ◄数据抽取►
第8章 ◄数据转换与装载►
第9章 ◄定期自动执行ETL作业►
第10章 ◄维度表技术►
第11章 ◄事实表技术►
第12章 ◄联机分析处理►
第13章 ◄数据可视化►


[EPUB下载]