大规模数据分析和建模：基于Spark与R电子书免费在线阅读,免费在线试读,作者：[美] 哈维尔·卢拉辛[美] 凯文·郭[美] 埃德加·鲁伊斯

书名
大规模数据分析和建模：基于Spark与R
作者[美] 哈维尔·卢拉辛[美] 凯文·郭[美] 埃德加·鲁伊斯
出版社机械工业出版社 / 2022-02
ISBN书号9787111661016
字数约 102,000 字
全本定价￥45.00

作品简介

这本书的目的是帮助所有人通过R使用Apache Spark。第1章~第5章，简单地介绍了如何大规模执行数据科学和机器学习项目。第6~9章介绍了使用Spark进行集群计算中令人激动的基本概念。第10章~第13章涵盖一些高级主题，包括分布式R、Streaming和社区贡献等。

Javier Luraschi是大规模数据科学诸多库的发明者，包括sparklyr、r2d3、pins和cloudml。

Kevin Kuo构建了机器学习库，并领导了Kasa AI的开放保险研究。

Edgar Ruiz构建了企业级的数据解决方案工具，包括dbplot、tidypredict和modeldb。

作品目录

O’Reilly Media，Inc.介绍
译者序
序言
前言
第1章　引言
1.1　概述
1.2　Hadoop
1.3　Spark
1.4　R
1.5　sparklyr
1.6　小结
第2章　开始
2.1　概述
2.2　预备操作
2.3　连接
2.4　使用Spark
2.5　断开连接
2.6　使用RStudio
2.7　资源
2.8　小结
第3章　分析
3.1　概述
3.2　数据导入
3.3　数据整理
3.4　可视化
3.5　建模
3.6　沟通
3.7　小结
第4章　建模
4.1　概述
4.2　探索性数据分析
4.3　特征工程
4.4　监督式学习
4.5　非监督式学习
4.6　小结
第5章　管道操作
5.1　概述
5.2　创建工作
5.3　用例
5.4　操作模式
5.5　交互性
5.6　部署
5.7　小结
第6章　集群
6.1　概述
6.2　本地化
6.3　云端
6.4　Kubernetes
6.5　工具
6.6　小结
第7章　连接
7.1　概述
7.2　本地模式
7.3　单机模式
7.4　YARN
7.5　Livy
7.6　Mesos
7.7　Kubernetes
7.8　云模式
7.9　批量模式
7.10　工具
7.11　多次连接
7.12　故障排除
7.13　小结
第8章　数据
8.1　概述
8.2　读取数据
8.3　写入数据
8.4　复制数据
8.5　文件格式
8.6　文件系统
8.7　存储系统
8.8　小结
第9章　调试
9.1　概述
9.2　配置
9.3　分区
9.4　缓存
9.5　重洗
9.6　序列化
9.7　配置文件
9.8　小结
第10章　扩展
10.1　概述
10.2　H2O
10.3　图模型
10.4　XGBoost
10.5　深度学习
10.6　基因组学
10.7　空间数据
10.8　故障排除
10.9　小结
第11章　分布式R
11.1　概述
11.2　用例
11.3　分区
11.4　分组
11.5　列
11.6　context参数
11.7　函数
11.8　程序包
11.9　集群需求
11.10　故障排除
11.11　小结
第12章　数据流
12.1　概述
12.2　转换
12.3　Kafka
12.4　Shiny
12.5　小结
第13章　社区贡献
13.1　概述
13.2　Spark API
13.3　Spark扩展
13.4　使用Scala代码
13.5　小结
附录A　补充参考代码
作者介绍
封面介绍

展开全部