作品简介

《自己动手做大数据系统(第2版)》在第1版的基础上,介绍大数据的时代背景及应用方案、常用的离线大数据和流式大数据组件,以及基于云平台的容器级数据平台搭建。书中以离线大数据和流式大数据两个具体示例,贯穿本书的第二、三部分内容,对组件之间的协同工作关系进行剖析。书中的代码部分基本上使用Python编写,用户可以下载参考。

如果你是一位在校学生、Python编程爱好者或是想转行从事大数据工作的在职IT人员,阅读本书必有所收获!

刘未昕,从事IT研发和项目管理工作十余年。使用多种主流程序设计语言,深耕于大数据应用及人工智能技术,多年从事金融、数据仓库、智慧医疗等领域的研发工作。

张粤磊,平安壹钱包前大数据架构师。业内知名大数据专家,多本大数据畅销书的作者。

张魁,虚拟化工程师,OpenStack架构师,苏州某高校云平台架构师,十余年Linux系统运维实践及虚拟化开发经验,4年Linux系统补丁开发经验。

吴茂贵,运筹学与控制论专业研究生学历。毕业后主要参与数据仓库、商务智能等方面的项目,期间做过数据处理、数据分析、数据挖掘等工作,行业涉及金融、物流、制造业等。

作品目录

  • 内容简介
  • 前言
  • 序言
  • 第一部分 大数据概述
  • 第1章 大数据的时代背景及应用落地
  • 1.1 大数据与“云大物区智”的关联
  • 1.2 大数据平台的应用优势
  • 1.3 大数据平台的技术架构选型和产品对比
  • 第2章 大数据系统的安装及配置
  • 2.1 服务器及操作系统的准备
  • 2.2 JDK、Python和Scala
  • 2.3 Hadoop
  • 2.4 Sqoop
  • 2.5 Hive
  • 2.6 ZooKeeper和HBase
  • 2.7 Flume
  • 2.8 Kafka
  • 2.9 Spark
  • 2.10 Flink
  • 2.11 开源大数据系统各组件的组合
  • 2.12 CDH
  • 2.13 FusionInsight
  • 2.14 小结
  • 第二部分 离线大数据处理
  • 第3章 使用Python爬虫获取数据
  • 3.1 Python爬虫模块的安装
  • 3.2 抓取并解析JSON数据
  • 3.3 抓取并解析HTML中的数据
  • 3.4 使用Python提取文章的关键字
  • 3.5 小结
  • 第4章 Hive在大数据中的角色
  • 4.1 Hive的核心概念及配置使用
  • 4.2 概要设计和物理模型的创建
  • 4.3 加载爬虫数据
  • 4.4 数据的合并、去重和转换
  • 4.5 使用UDF实现数据的转换
  • 4.6 使用Python操作Hive
  • 4.7 ETL数据调度和数据治理
  • 4.8 小结
  • 第5章 使用HBase实现大数据存储
  • 5.1 非关系型数据库及HBase
  • 5.2 HBase的几个核心概念
  • 5.3 HBase数据操作命令
  • 5.4 使用Python操作HBase
  • 5.5 把Hive数据导入HBase
  • 5.6 用Hive外部表读取HBase数据
  • 5.7 小结
  • 第6章 Spark数据分析引擎
  • 6.1 Spark简介
  • 6.2 Spark集群的配置及启动
  • 6.3 调用Hive数据
  • 6.4 调用HBase数据
  • 6.5 使用PySpark进行数据分析
  • 6.6 小结
  • 第7章 使用Flask实现数据展示
  • 7.1 Flask框架简介及站点搭建流程
  • 7.2 Flask微框架的特性
  • 7.3 使用MVC模式搭建项目框架
  • 7.4 检索及加载新闻数据
  • 7.5 小结
  • 第二部分技术点总结
  • 第三部分 流式大数据处理
  • 第8章 使用Flume获取网站访问日志
  • 8.1 Flume的安装及数据流模型
  • 8.2 核心组件的配合使用
  • 8.3 各种数据组合的流动方式
  • 8.4 Apache服务器的日志格式
  • 8.5 合并两个网站的日志
  • 8.6 小结
  • 第9章 Kafka的安装、配置及其与Flume的整合
  • 9.1 Kafka的特性及安装、配置
  • 9.2 几种术语
  • 9.3 Broker的使用方法
  • 9.4 分布式生产者/消费者
  • 9.5 Kafka Connector
  • 9.6 Kafka和Flume的整合
  • 9.7 使用Python连接Kafka
  • 9.8 小结
  • 第10章 Redis数据库简介
  • 10.1 Redis的特点及适用场景
  • 10.2 Redis的安装及命令行使用方法
  • 10.3 使用Python操作Redis
  • 10.4 使用Java操作Redis
  • 10.5 小结
  • 第11章 Flink简介及其与Kafka的整合
  • 11.1 Flink概述及其与Spark的区别
  • 11.2 Flink的架构、特性及工作流程
  • 11.3 Flink的安装
  • 11.4 Flink的作业提交方式
  • 11.5 Flink-Kafka Connector
  • 11.6 使用Flink统计PageView
  • 11.7 小结
  • 第12章 网站页面访问量的动态展示
  • 12.1 百度的ECharts图表功能简介
  • 12.2 页面访问量的动态统计
  • 12.3 生成词云图和占比饼图
  • 12.4 访问日志检索
  • 12.5 小结
  • 第三部分技术点总结
  • 第四部分 云平台搭建
  • 第13章 搭建基于云平台的容器级数据系统
  • 13.1 云平台
  • 13.2 基于云平台的容器集群
  • 13.3 基于容器的大数据系统
  • 13.4 小结
展开全部