作品简介

这本书的目的是帮助所有人通过R使用Apache Spark。第1章~第5章,简单地介绍了如何大规模执行数据科学和机器学习项目。第6~9章介绍了使用Spark进行集群计算中令人激动的基本概念。第10章~第13章涵盖一些高级主题,包括分布式R、Streaming和社区贡献等。

Javier Luraschi是大规模数据科学诸多库的发明者,包括sparklyr、r2d3、pins和cloudml。

Kevin Kuo构建了机器学习库,并领导了Kasa AI的开放保险研究。

Edgar Ruiz构建了企业级的数据解决方案工具,包括dbplot、tidypredict和modeldb。

作品目录

  • O’Reilly Media,Inc.介绍
  • 译者序
  • 序言
  • 前言
  • 第1章 引言
  • 1.1 概述
  • 1.2 Hadoop
  • 1.3 Spark
  • 1.4 R
  • 1.5 sparklyr
  • 1.6 小结
  • 第2章 开始
  • 2.1 概述
  • 2.2 预备操作
  • 2.3 连接
  • 2.4 使用Spark
  • 2.5 断开连接
  • 2.6 使用RStudio
  • 2.7 资源
  • 2.8 小结
  • 第3章 分析
  • 3.1 概述
  • 3.2 数据导入
  • 3.3 数据整理
  • 3.4 可视化
  • 3.5 建模
  • 3.6 沟通
  • 3.7 小结
  • 第4章 建模
  • 4.1 概述
  • 4.2 探索性数据分析
  • 4.3 特征工程
  • 4.4 监督式学习
  • 4.5 非监督式学习
  • 4.6 小结
  • 第5章 管道操作
  • 5.1 概述
  • 5.2 创建工作
  • 5.3 用例
  • 5.4 操作模式
  • 5.5 交互性
  • 5.6 部署
  • 5.7 小结
  • 第6章 集群
  • 6.1 概述
  • 6.2 本地化
  • 6.3 云端
  • 6.4 Kubernetes
  • 6.5 工具
  • 6.6 小结
  • 第7章 连接
  • 7.1 概述
  • 7.2 本地模式
  • 7.3 单机模式
  • 7.4 YARN
  • 7.5 Livy
  • 7.6 Mesos
  • 7.7 Kubernetes
  • 7.8 云模式
  • 7.9 批量模式
  • 7.10 工具
  • 7.11 多次连接
  • 7.12 故障排除
  • 7.13 小结
  • 第8章 数据
  • 8.1 概述
  • 8.2 读取数据
  • 8.3 写入数据
  • 8.4 复制数据
  • 8.5 文件格式
  • 8.6 文件系统
  • 8.7 存储系统
  • 8.8 小结
  • 第9章 调试
  • 9.1 概述
  • 9.2 配置
  • 9.3 分区
  • 9.4 缓存
  • 9.5 重洗
  • 9.6 序列化
  • 9.7 配置文件
  • 9.8 小结
  • 第10章 扩展
  • 10.1 概述
  • 10.2 H2O
  • 10.3 图模型
  • 10.4 XGBoost
  • 10.5 深度学习
  • 10.6 基因组学
  • 10.7 空间数据
  • 10.8 故障排除
  • 10.9 小结
  • 第11章 分布式R
  • 11.1 概述
  • 11.2 用例
  • 11.3 分区
  • 11.4 分组
  • 11.5 列
  • 11.6 context参数
  • 11.7 函数
  • 11.8 程序包
  • 11.9 集群需求
  • 11.10 故障排除
  • 11.11 小结
  • 第12章 数据流
  • 12.1 概述
  • 12.2 转换
  • 12.3 Kafka
  • 12.4 Shiny
  • 12.5 小结
  • 第13章 社区贡献
  • 13.1 概述
  • 13.2 Spark API
  • 13.3 Spark扩展
  • 13.4 使用Scala代码
  • 13.5 小结
  • 附录A 补充参考代码
  • 作者介绍
  • 封面介绍
展开全部