作品简介

Kettle是一款国外开源的ETL工具,纯Java编写,无须安装,功能完备,数据抽取高效稳定。

本书介绍并演示如何用Kettle完成Hadoop数据仓库上的ETL过程,所有的描绘场景与实验环境都是基于Linux操作系统的虚拟机。全书共分10章,主要内容包括ETL与Kettle的基本概念、Kettle安装与配置、Kettle对Hadoop的支持、建立ETL示例模型、数据转换与装载、定期自动执行ETL作业、维度表技术、事实表技术,以及Kettle并行、集群与分区技术。

本书既适合大数据分析系统开发、数据仓库系统设计与开发、DBA、架构师等相关技术人员阅读,也适合高等院校和培训机构人工智能与大数据相关专业的师生参考。

王雪迎,毕业于中国地质大学计算机专业,高级工程师,20年数据库、数据仓库相关技术工作经验。先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。著有图书《Hadoop构建数据仓库实践》《HAWQ数据仓库与数据挖掘实战》《SQL机器学习库MADlib技术解析》《MySQL高可用实践》。

作品目录

  • 内容简介
  • 前言
  • 本书内容
  • 资源下载与技术支持
  • 读者对象
  • 致谢
  • 第1章 ETL与Kettle
  • 1.1 ETL基础
  • 1.2 ETL工具
  • 1.3 Kettle基本概念
  • 1.4 为什么选择Kettle
  • 1.5 小结
  • 第2章 Kettle安装与配置
  • 2.1 安装
  • 2.2 配置
  • 2.3 使用资源库
  • 2.4 小结
  • 第3章 Kettle对Hadoop的支持
  • 3.1 Hadoop相关的步骤与作业项
  • 3.2 连接Hadoop
  • 3.3 导入导出Hadoop集群数据
  • 3.4 执行HiveQL语句
  • 3.5 执行MapReduce
  • 3.6 执行Spark作业
  • 3.7 小结
  • 第4章 建立ETL示例模型
  • 4.1 业务场景
  • 4.2 Hive相关配置
  • 4.3 建立数据库表
  • 4.4 装载日期维度数据
  • 4.5 小结
  • 第5章 数据抽取
  • 5.1 Kettle数据抽取概览
  • 5.2 变化数据捕获
  • 5.3 使用Sqoop抽取数据
  • 5.4 小结
  • 第6章 数据转换与装载
  • 6.1 数据清洗
  • 6.2 Hive简介
  • 6.3 初始装载
  • 6.4 定期装载
  • 6.5 小结
  • 第7章 定期自动执行ETL作业
  • 7.1 使用crontab
  • 7.2 使用Oozie
  • 7.3 使用start作业项
  • 7.4 小结
  • 第8章 维度表技术
  • 8.1 增加列
  • 8.2 维度子集
  • 8.3 角色扮演维度
  • 8.4 层次维度
  • 8.5 退化维度
  • 8.6 杂项维度
  • 8.7 维度合并
  • 8.8 分段维度
  • 8.9 小结
  • 第9章 事实表技术
  • 9.1 事实表概述
  • 9.2 周期快照
  • 9.3 累积快照
  • 9.4 无事实的事实表
  • 9.5 迟到的事实
  • 9.6 累积度量
  • 9.7 小结
  • 第10章 并行、集群与分区
  • 10.1 数据分发方式与多线程
  • 10.2 Carte子服务器
  • 10.3 集群转换
  • 10.4 数据库分区
  • 10.5 小结
展开全部