Kettle构建Hadoop ETL系统实践电子书免费在线阅读,免费在线试读,作者：王雪迎

书名
Kettle构建Hadoop ETL系统实践
大数据技术丛书
作者王雪迎
出版社清华大学出版社 / 2021-07
ISBN书号9787302582618
字数约 154,000 字
全本定价￥55.30

作品简介

Kettle是一款国外开源的ETL工具，纯Java编写，无须安装，功能完备，数据抽取高效稳定。

本书介绍并演示如何用Kettle完成Hadoop数据仓库上的ETL过程，所有的描绘场景与实验环境都是基于Linux操作系统的虚拟机。全书共分10章，主要内容包括ETL与Kettle的基本概念、Kettle安装与配置、Kettle对Hadoop的支持、建立ETL示例模型、数据转换与装载、定期自动执行ETL作业、维度表技术、事实表技术，以及Kettle并行、集群与分区技术。

本书既适合大数据分析系统开发、数据仓库系统设计与开发、DBA、架构师等相关技术人员阅读，也适合高等院校和培训机构人工智能与大数据相关专业的师生参考。

王雪迎，毕业于中国地质大学计算机专业，高级工程师，20年数据库、数据仓库相关技术工作经验。先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司，担任DBA、数据架构师等职位。著有图书《Hadoop构建数据仓库实践》《HAWQ数据仓库与数据挖掘实战》《SQL机器学习库MADlib技术解析》《MySQL高可用实践》。

作品目录

内容简介
前言
本书内容
资源下载与技术支持
读者对象
致谢
第1章　ETL与Kettle
1.1　ETL基础
1.2　ETL工具
1.3　Kettle基本概念
1.4　为什么选择Kettle
1.5　小结
第2章　Kettle安装与配置
2.1　安装
2.2　配置
2.3　使用资源库
2.4　小结
第3章　Kettle对Hadoop的支持
3.1　Hadoop相关的步骤与作业项
3.2　连接Hadoop
3.3　导入导出Hadoop集群数据
3.4　执行HiveQL语句
3.5　执行MapReduce
3.6　执行Spark作业
3.7　小结
第4章　建立ETL示例模型
4.1　业务场景
4.2　Hive相关配置
4.3　建立数据库表
4.4　装载日期维度数据
4.5　小结
第5章　数据抽取
5.1　Kettle数据抽取概览
5.2　变化数据捕获
5.3　使用Sqoop抽取数据
5.4　小结
第6章　数据转换与装载
6.1　数据清洗
6.2　Hive简介
6.3　初始装载
6.4　定期装载
6.5　小结
第7章　定期自动执行ETL作业
7.1　使用crontab
7.2　使用Oozie
7.3　使用start作业项
7.4　小结
第8章　维度表技术
8.1　增加列
8.2　维度子集
8.3　角色扮演维度
8.4　层次维度
8.5　退化维度
8.6　杂项维度
8.7　维度合并
8.8　分段维度
8.9　小结
第9章　事实表技术
9.1　事实表概述
9.2　周期快照
9.3　累积快照
9.4　无事实的事实表
9.5　迟到的事实
9.6　累积度量
9.7　小结
第10章　并行、集群与分区
10.1　数据分发方式与多线程
10.2　Carte子服务器
10.3　集群转换
10.4　数据库分区
10.5　小结

展开全部