作品简介

本书是Spark技术入门的基础类书籍,通过本书的学习实验可以牢固掌握Spark编程技术的基本概念、原理和编程方法,能够进行应用程序的实际开发。

雷擎,对外经济贸易大学教师,中国科学院计算技术研究所博士。

作品目录

  • 内容简介
  • 前言
  • 第1章 Spark生态环境
  • 1.1 平台设计
  • 1.2 Spark简介
  • 1.3 虚拟环境
  • 1.4 HBase技术
  • 1.5 环境部署
  • 1.6 小结
  • 第2章 理解Spark
  • 2.1 数据处理
  • 2.2 认识RDD
  • 2.3 操作RDD
  • 2.4 Scala编程
  • 2.5 案例分析
  • 2.6 小结
  • 第3章 键值对与分区
  • 3.1 键值对RDD
  • 3.2 分区和洗牌
  • 3.3 共享变量
  • 3.4 Scala高级语法
  • 3.5 案例分析
  • 3.6 小结
  • 第4章 关系型数据处理
  • 4.1 Spark SQL概述
  • 4.2 结构化数据操作
  • 4.3 案例分析
  • 4.4 小结
  • 第5章 数据流的操作
  • 5.1 处理范例
  • 5.2 理解时间
  • 5.3 离散化流
  • 5.4 离散流的操作
  • 5.5 结构化流
  • 5.6 案例分析
  • 5.7 小结
  • 第6章 分布式的图处理
  • 6.1 理解图的概念
  • 6.2 图并行系统
  • 6.3 一个例子
  • 6.4 创建和探索图
  • 6.5 图运算符
  • 6.6 Pregel
  • 6.7 案例分析
  • 6.8 小结
  • 第7章 机器学习
  • 7.1 MLlib
  • 7.2 数据类型
  • 7.3 统计基础
  • 7.4 算法概述
  • 7.5 交叉验证
  • 7.6 机器学习管道
  • 7.7 实例分析
  • 7.8 小结
  • 第8章 特征工程
  • 8.1 特征提取
  • 8.2 特征转换
  • 8.3 特征选择
  • 8.4 局部敏感哈希
  • 8.5 小结
  • 第9章 算法汇总
  • 9.1 决策树和集成树
  • 9.2 分类和回归
  • 9.3 聚集
  • 9.4 小结
  • 第10章 Spark应用程序
  • 10.1 SparkContext与SparkSession
  • 10.2 构建应用
  • 10.3 部署应用
  • 10.4 小结
  • 第11章 监视和优化
  • 11.1 工作原理
  • 11.2 洗牌机制
  • 11.3 内存管理
  • 11.4 优化策略
  • 11.5 最佳实践
  • 11.6 案例分析
  • 11.7 小结
  • 参考文献
展开全部