Spark海量数据处理电子书免费在线阅读,免费在线试读,作者：范东来

书名
Spark海量数据处理
技术详解与平台实战
作者范东来
出版社人民邮电出版社 / 2019-12
ISBN书号9787115507006
字数约 186,000 字
全本定价￥63.36

作品简介

本书基于Spark发行版2.4.4写作而成，包含大量的实例与一个完整项目，层次分明，循序渐进。全书分为3部分，涵盖了技术理论与实战，读者可以从实战中巩固学习到的知识。第一部分主要围绕BDAS（伯克利数据分析栈），不仅介绍了如何开发Spark应用的基础内容，还介绍了Structured Streaming、Spark机器学习、Spark图挖掘、Spark深度学习等高级主题，此外还介绍了Alluxio系统。第二部分实现了一个企业背景调查系统，比较新颖的是，该系统借鉴了数据湖与Lambda架构的思想，涵盖了批处理、流处理应用开发，并加入了一些开源组件来满足需求，既是对本书第一部分很好的巩固，又完整呈现了一个实时大数据应用的开发过程。第三部分是对全书的总结和展望。本书适合准备学习Spark的开发人员和数据分析师，以及准备将Spark应用到实际项目中的开发人员和管理人员阅读，也适合计算机相关专业的高年级本科生和研究生学习和参考，对于具有一定的Spark使用经验并想进一步提升的数据科学从业者也是很好的参考资料。

范东来，北京航空航天大学硕士，泛山科技联合创始人，Spark Contributor、SupersetContributor，架构师，技术图书作者和译者，著有《Hadoop海量数据处理》，译有《解读NoSQL》《NoSQL权威指南》《神经网络算法和实现》《Hadoop深度学习》《精通数据科学算法》等，另译有畅销小说《巧克力时代：因为这是我的血脉》。

作品目录

序
前言
本书特点
面向读者
阅读方法
勘误和支持
致谢
第一部分　基础篇
第1章　序篇
1.1　Spark与BDAS
1.2　Databricks
1.3　如何通过GitHub向Spark贡献代码
1.4　如何选择Spark编程语言
1.5　函数式编程思想
1.6　小结
第2章　Spark编程
2.1　Spark架构
2.2　Spark 2.x与Spark 3.x
2.3　部署Spark
2.4　RDD与算子
2.5　Spark Shuffle
2.6　共享变量
2.7　Spark的多语言支持
2.8　Spark性能调优
2.9　使用Jupyter Notebook基于Spark探索数据：蒙特卡罗方法预测股票价格
2.10　小结
第3章　Spark统一编程接口：DataFrame、Dataset和Spark SQL
3.1　Catalyst优化器
3.2　DataFrame API
3.3　Dataset API
3.4　Spark SQL
3.5　Google Dremel与列式存储
3.6　使用Spark SQL进行数据探索
3.7　小结
第4章　Spark流处理：Spark Streaming与Structured Streaming
4.1　一个Spark Streaming流处理的例子
4.2　消息送达保证
4.3　Google MillWheel系统和Google Dataflow模型
4.4　Spark Streaming
4.5　Structured Streaming
4.6　流处理技术对比
4.7　小结
第5章　Spark图计算：GraphX
5.1　图模式
5.2　生成图
5.3　图算子
5.4　Pregel API
5.5　SQL on Graph
5.6　n度邻居顶点算法
5.7　小结
第6章　Spark机器学习：MLlib
6.1　机器学习
6.2　Spark MLlib与Spark ML
6.3　数据预处理
6.4　分类算法应用
6.5　聚类算法应用
6.6　推荐系统应用
6.7　训练之后
6.8　流式机器学习
6.9　小结
第7章　Spark深度学习：Deeplearning4j
7.1　常见的深度学习框架
7.2　Deeplearning4j
7.3　卷积神经网络
7.4　循环神经网络
7.5　自动编码器
7.6　使用GPU
7.7　小结
第8章　分布式存储：Alluxio
8.1　Alluxio架构
8.2　快速上手Alluxio
8.3　与上层框架集成
8.4　与底层存储系统集成
8.5　如何访问Alluxio
8.6　Alluxio应用案例
8.7　小结
第二部分　应用篇
第9章　企业数据湖与Lambda架构
9.1　数据湖
9.2　Lambda架构
9.3　基于Lambda架构的数据湖分层设计
9.4　Lambda架构的应用
9.5　构建Lambda架构的技术
9.6　小结
第10章　大数据企业动态背景调查平台
10.1　企业背景调查
10.2　基于大数据的企业动态背景调查
10.3　数据采集与数据字典
10.4　企业背景调查平台需求
10.5　企业关联图谱的模式
10.6　传统数据仓库架构
10.7　小结
第11章　平台设计
11.1　平台架构
11.2　物理拓扑
11.3　服务层图数据库设计
11.4　项目规划
11.5　小结
第12章　数据管道层
12.1　安装并配置canal
12.2　实现Kafka生产者
12.3　安装并配置Flume
12.4　小结
第13章　速度层
13.1　速度层输入
13.2　Cypher基础
13.3　生成Cypher语句
13.4　整合Structured Streaming
13.5　小结
第14章　批处理层
14.1　自融风险监测
14.2　生成主数据集
14.3　用GraphX计算企业自融风险值
14.4　导入HBase
14.5　调度中心
14.6　小结
第15章　服务层与查询层
15.1　不仅仅是合并
15.2　接口开发
15.3　小结
第三部分　总结篇
第16章　总结和展望
16.1　统一的大数据处理接口
16.2　Kappa架构
16.3　大数据处理技术
16.4　Spark未来发展方向

展开全部