作品简介

本书基于Spark发行版2.4.4写作而成,包含大量的实例与一个完整项目,层次分明,循序渐进。全书分为3部分,涵盖了技术理论与实战,读者可以从实战中巩固学习到的知识。第一部分主要围绕BDAS(伯克利数据分析栈),不仅介绍了如何开发Spark应用的基础内容,还介绍了Structured Streaming、Spark机器学习、Spark图挖掘、Spark深度学习等高级主题,此外还介绍了Alluxio系统。第二部分实现了一个企业背景调查系统,比较新颖的是,该系统借鉴了数据湖与Lambda架构的思想,涵盖了批处理、流处理应用开发,并加入了一些开源组件来满足需求,既是对本书第一部分很好的巩固,又完整呈现了一个实时大数据应用的开发过程。第三部分是对全书的总结和展望。本书适合准备学习Spark的开发人员和数据分析师,以及准备将Spark应用到实际项目中的开发人员和管理人员阅读,也适合计算机相关专业的高年级本科生和研究生学习和参考,对于具有一定的Spark使用经验并想进一步提升的数据科学从业者也是很好的参考资料。

范东来,北京航空航天大学硕士,泛山科技联合创始人,Spark Contributor、SupersetContributor,架构师,技术图书作者和译者,著有《Hadoop海量数据处理》,译有《解读NoSQL》《NoSQL权威指南》《神经网络算法和实现》《Hadoop深度学习》《精通数据科学算法》等,另译有畅销小说《巧克力时代:因为这是我的血脉》。

作品目录

  • 前言
  • 本书特点
  • 面向读者
  • 阅读方法
  • 勘误和支持
  • 致谢
  • 第一部分 基础篇
  • 第1章 序篇
  • 1.1 Spark与BDAS
  • 1.2 Databricks
  • 1.3 如何通过GitHub向Spark贡献代码
  • 1.4 如何选择Spark编程语言
  • 1.5 函数式编程思想
  • 1.6 小结
  • 第2章 Spark编程
  • 2.1 Spark架构
  • 2.2 Spark 2.x与Spark 3.x
  • 2.3 部署Spark
  • 2.4 RDD与算子
  • 2.5 Spark Shuffle
  • 2.6 共享变量
  • 2.7 Spark的多语言支持
  • 2.8 Spark性能调优
  • 2.9 使用Jupyter Notebook基于Spark探索数据:蒙特卡罗方法预测股票价格
  • 2.10 小结
  • 第3章 Spark统一编程接口:DataFrame、Dataset和Spark SQL
  • 3.1 Catalyst优化器
  • 3.2 DataFrame API
  • 3.3 Dataset API
  • 3.4 Spark SQL
  • 3.5 Google Dremel与列式存储
  • 3.6 使用Spark SQL进行数据探索
  • 3.7 小结
  • 第4章 Spark流处理:Spark Streaming与Structured Streaming
  • 4.1 一个Spark Streaming流处理的例子
  • 4.2 消息送达保证
  • 4.3 Google MillWheel系统和Google Dataflow模型
  • 4.4 Spark Streaming
  • 4.5 Structured Streaming
  • 4.6 流处理技术对比
  • 4.7 小结
  • 第5章 Spark图计算:GraphX
  • 5.1 图模式
  • 5.2 生成图
  • 5.3 图算子
  • 5.4 Pregel API
  • 5.5 SQL on Graph
  • 5.6 n度邻居顶点算法
  • 5.7 小结
  • 第6章 Spark机器学习:MLlib
  • 6.1 机器学习
  • 6.2 Spark MLlib与Spark ML
  • 6.3 数据预处理
  • 6.4 分类算法应用
  • 6.5 聚类算法应用
  • 6.6 推荐系统应用
  • 6.7 训练之后
  • 6.8 流式机器学习
  • 6.9 小结
  • 第7章 Spark深度学习:Deeplearning4j
  • 7.1 常见的深度学习框架
  • 7.2 Deeplearning4j
  • 7.3 卷积神经网络
  • 7.4 循环神经网络
  • 7.5 自动编码器
  • 7.6 使用GPU
  • 7.7 小结
  • 第8章 分布式存储:Alluxio
  • 8.1 Alluxio架构
  • 8.2 快速上手Alluxio
  • 8.3 与上层框架集成
  • 8.4 与底层存储系统集成
  • 8.5 如何访问Alluxio
  • 8.6 Alluxio应用案例
  • 8.7 小结
  • 第二部分 应用篇
  • 第9章 企业数据湖与Lambda架构
  • 9.1 数据湖
  • 9.2 Lambda架构
  • 9.3 基于Lambda架构的数据湖分层设计
  • 9.4 Lambda架构的应用
  • 9.5 构建Lambda架构的技术
  • 9.6 小结
  • 第10章 大数据企业动态背景调查平台
  • 10.1 企业背景调查
  • 10.2 基于大数据的企业动态背景调查
  • 10.3 数据采集与数据字典
  • 10.4 企业背景调查平台需求
  • 10.5 企业关联图谱的模式
  • 10.6 传统数据仓库架构
  • 10.7 小结
  • 第11章 平台设计
  • 11.1 平台架构
  • 11.2 物理拓扑
  • 11.3 服务层图数据库设计
  • 11.4 项目规划
  • 11.5 小结
  • 第12章 数据管道层
  • 12.1 安装并配置canal
  • 12.2 实现Kafka生产者
  • 12.3 安装并配置Flume
  • 12.4 小结
  • 第13章 速度层
  • 13.1 速度层输入
  • 13.2 Cypher基础
  • 13.3 生成Cypher语句
  • 13.4 整合Structured Streaming
  • 13.5 小结
  • 第14章 批处理层
  • 14.1 自融风险监测
  • 14.2 生成主数据集
  • 14.3 用GraphX计算企业自融风险值
  • 14.4 导入HBase
  • 14.5 调度中心
  • 14.6 小结
  • 第15章 服务层与查询层
  • 15.1 不仅仅是合并
  • 15.2 接口开发
  • 15.3 小结
  • 第三部分 总结篇
  • 第16章 总结和展望
  • 16.1 统一的大数据处理接口
  • 16.2 Kappa架构
  • 16.3 大数据处理技术
  • 16.4 Spark未来发展方向
展开全部