作品简介

我国提出新基建概念,要加快大数据中心、人工智能等新型基础设施的建设进度,这无疑需要更多的大数据人才。PySpark可以对大数据进行分布式处理,降低大数据学习门槛,本书正是一本PySpark入门教材,适合有一定Python基础的读者学习使用。

本书分为7章,第1章介绍大数据的基本概念、常用的大数据分析工具;第2章介绍Spark作为大数据处理的特点和算法;第3章介绍Spark实战环境的搭建,涉及Windows和Linux操作系统;第4章介绍如何灵活应用PySpark对数据进行操作;第5章介绍PySpark ETL处理,涉及PySpark读取数据、对数据进行统计分析等数据处理相关内容;第6章介绍PySpark如何利用MLlib库进行分布式机器学习(Titanic幸存者预测);第7章介绍一个PySpark和Kafka结合的实时项目。

本书内容全面、示例丰富,可作为广大PySpark入门读者必备的参考书,同时能作为大中专院校师生的教学参考书,也可作为高等院校计算机及相关专业的大数据技术教材使用。

汪明,硕士,毕业于中国矿业大学,徐州软件协会副理事长,某创业公司合伙人。从事软件行业十余年,发表论文数十篇。著有图书《TypeScript实战》《Go并发编程实战》。

作品目录

  • 内容简介
  • 前言
  • 本书特点
  • 源码下载
  • 本书运行环境说明
  • 本书读者
  • 本书作者
  • 第1章 大数据时代
  • 1.1 什么是大数据
  • 1.2 大数据下的分析工具
  • 1.3 小结
  • 第2章 大数据的瑞士军刀——Spark
  • 2.1 Hadoop与生态系统
  • 2.2 Spark与Hadoop
  • 2.3 Spark核心概念
  • 2.4 Spark基本操作
  • 2.5 SQL in Spark
  • 2.6 Spark与机器学习
  • 2.7 小结
  • 第3章 Spark实战环境设定
  • 3.1 建立Spark环境前提
  • 3.2 一分钟建立Spark环境
  • 3.3 建立Hadoop集群
  • 3.4 安装与配置Spark集群
  • 3.5 安装与配置Hive
  • 3.6 打造交互式Spark环境
  • 3.7 小结
  • 第4章 活用PySpark
  • 4.1 Python语法复习
  • 4.2 用PySpark建立第一个Spark RDD
  • 4.3 RDD的操作与观察
  • 4.4 共享变数
  • 4.5 DataFrames与Spark SQL
  • 4.6 撰写第一个Spark程序
  • 4.7 提交你的Spark程序
  • 4.8 小结
  • 第5章 PySpark ETL实战
  • 5.1 认识资料单元格式
  • 5.2 观察资料
  • 5.3 选择、筛选与聚合
  • 5.4 存储数据
  • 5.5 Spark存储数据到SQL Server
  • 5.6 小结
  • 第6章 PySpark分布式机器学习
  • 6.1 认识数据格式
  • 6.2 描述统计
  • 6.3 资料清理与变形
  • 6.4 认识Pipeline
  • 6.5 逻辑回归原理与应用
  • 6.6 决策树原理与应用
  • 6.7 小结
  • 第7章 实战:PySpark+Kafka实时项目
  • 7.1 Kafka和Flask环境搭建
  • 7.2 代码实现
  • 7.3 小结
展开全部