Python大数据处理库PySpark实战电子书免费在线阅读,免费在线试读,作者：汪明

书名
Python大数据处理库PySpark实战
作者汪明
出版社清华大学出版社 / 2021-03
ISBN书号9787302575085
字数约 125,000 字
全本定价￥38.50

作品简介

我国提出新基建概念，要加快大数据中心、人工智能等新型基础设施的建设进度，这无疑需要更多的大数据人才。PySpark可以对大数据进行分布式处理，降低大数据学习门槛，本书正是一本PySpark入门教材，适合有一定Python基础的读者学习使用。

本书分为7章，第1章介绍大数据的基本概念、常用的大数据分析工具；第2章介绍Spark作为大数据处理的特点和算法；第3章介绍Spark实战环境的搭建，涉及Windows和Linux操作系统；第4章介绍如何灵活应用PySpark对数据进行操作；第5章介绍PySpark ETL处理，涉及PySpark读取数据、对数据进行统计分析等数据处理相关内容；第6章介绍PySpark如何利用MLlib库进行分布式机器学习（Titanic幸存者预测）；第7章介绍一个PySpark和Kafka结合的实时项目。

本书内容全面、示例丰富，可作为广大PySpark入门读者必备的参考书，同时能作为大中专院校师生的教学参考书，也可作为高等院校计算机及相关专业的大数据技术教材使用。

汪明，硕士，毕业于中国矿业大学，徐州软件协会副理事长，某创业公司合伙人。从事软件行业十余年，发表论文数十篇。著有图书《TypeScript实战》《Go并发编程实战》。

作品目录

内容简介
前言
本书特点
源码下载
本书运行环境说明
本书读者
本书作者
第1章大数据时代
1.1　什么是大数据
1.2　大数据下的分析工具
1.3　小结
第2章大数据的瑞士军刀——Spark
2.1　Hadoop与生态系统
2.2　Spark与Hadoop
2.3　Spark核心概念
2.4　Spark基本操作
2.5　SQL in Spark
2.6　Spark与机器学习
2.7　小结
第3章 Spark实战环境设定
3.1　建立Spark环境前提
3.2　一分钟建立Spark环境
3.3　建立Hadoop集群
3.4　安装与配置Spark集群
3.5　安装与配置Hive
3.6　打造交互式Spark环境
3.7　小结
第4章活用PySpark
4.1　Python语法复习
4.2　用PySpark建立第一个Spark RDD
4.3　RDD的操作与观察
4.4　共享变数
4.5　DataFrames与Spark SQL
4.6　撰写第一个Spark程序
4.7　提交你的Spark程序
4.8　小结
第5章 PySpark ETL实战
5.1　认识资料单元格式
5.2　观察资料
5.3　选择、筛选与聚合
5.4　存储数据
5.5　Spark存储数据到SQL Server
5.6　小结
第6章 PySpark分布式机器学习
6.1　认识数据格式
6.2　描述统计
6.3　资料清理与变形
6.4　认识Pipeline
6.5　逻辑回归原理与应用
6.6　决策树原理与应用
6.7　小结
第7章实战：PySpark+Kafka实时项目
7.1　Kafka和Flask环境搭建
7.2　代码实现
7.3　小结

展开全部