作品简介

Spark是专为大规模数据处理而设计的快速通用的计算引擎,经过近几年的飞速发展,现已被广泛应用于各个领域。本书通过通俗易懂的语言和简单明了的操作,系统地讲解了构建Spark深度学习系统的方法、流程、标准和规范等相关内容,并提供了相应的示例与解析。

《Spark 深度学习指南》适合作为高等院校计算机相关专业的参考资料,也适合大数据技术和机器学习技术的初学者阅读,还适合所有对大数据技术和机器学习技术有所了解并想将该技术应用于本职工作的读者阅读。

(美)艾哈迈德·谢里夫(Ahmed Sherif)是一名数据科学家,自2005年以来一直从事各种各样的数据研究工作。他从2013年开始使用BI解决方案并慢慢转向数据科学。2016年,他从西北大学获得了预测分析硕士学位,在那里他研究使用Python和R语言进行机器学习和预测建模的科学与应用。

(美)阿姆里斯·拉文德拉(Amrith Ravindra)是一位机器学习爱好者,拥有电气与工业工程学位。在攻读硕士学位期间,他深入地研究了机器学习问题,加深了自己对数据科学的热爱程度。工程专业的研究生课程给他提供了数学背景,使他开始了机器学习领域的职业生涯。

作品目录

  • 译者序
  • 编著者
  • 前言
  • 1 为深度学习开发设置Spark
  • 介绍
  • 下载Ubuntu桌面映像
  • 在macOS中使用VMWare Fusion安装和配置Ubuntu
  • 在Windows中使用Oracle VirtualBox安装和配置Ubuntu
  • 为谷歌云平台安装和配置Ubuntu桌面端
  • 在Ubuntu桌面端安装和配置Spark
  • 集成Jupyter Notebook与Spark
  • 启动和配置Spark集群
  • 停止Spark集群
  • 2 在Spark中创建神经网络
  • 介绍
  • 在PySpark中创建数据帧
  • 在PySpark数据帧中操作列
  • 将PySpark数据帧转换为数组
  • 在散点图中将数组可视化
  • 设置输入神经网络的权重和偏差
  • 规范化神经网络的输入数据
  • 验证数组以获得最佳的神经网络性能
  • 使用sigmoid设置激活函数
  • 创建sigmoid导数
  • 计算神经网络中的代价函数
  • 根据身高值和体重值预测性别
  • 预测分数并进行可视化
  • 3 卷积神经网络的难点
  • 介绍
  • 难点1:导入MNIST图像
  • 难点2:可视化MNIST图像
  • 难点3:将MNIST图像导出为文件
  • 难点4:增加MNIST图像
  • 难点5:利用备用资源训练图像
  • 难点6:为卷积神经网络优先考虑高级库
  • 4 循环神经网络的难点
  • 介绍
  • 前馈网络简介
  • 循环神经网络的顺序工作
  • 难点1:梯度消失问题
  • 难点2:梯度爆炸问题
  • 长短期记忆单元的顺序工作
  • 5 用Spark机器学习预测消防部门呼叫
  • 介绍
  • 下载旧金山消防局呼叫数据集
  • 识别逻辑回归模型的目标变量
  • 为逻辑回归模型准备特征变量
  • 应用逻辑回归模型
  • 评估逻辑回归模型的准确度
  • 6 在生成网络中使用LSTM
  • 介绍
  • 下载将用作输入文本的小说/书籍
  • 准备和清理数据
  • 标记句子
  • 训练和保存LSTM模型
  • 使用模型生成类似的文本
  • 7 使用TF-IDF进行自然语言处理
  • 介绍
  • 下载治疗机器人会话文本数据集
  • 分析治疗机器人会话数据集
  • 数据集单词计数可视化
  • 计算文本的情感分析
  • 从文本中删除停用词
  • 训练TF-IDF模型
  • 评估TF-IDF模型性能
  • 比较模型性能和基线分数
  • 8 使用XGBoost进行房地产价值预测
  • 下载金斯县房屋销售数据集
  • 执行探索性分析和可视化
  • 绘制价格与其他特征之间的相关性
  • 预测房价
  • 9 使用长短期记忆单元预测苹果公司股票市场价格
  • 下载苹果公司的股票市场数据
  • 探索和可视化苹果公司的股票市场数据
  • 准备用于提升模型性能的股票市场数据
  • 构建长短期记忆单元模型
  • 评估长短期记忆单元模型
  • 10 使用深度卷积网络进行人脸识别
  • 介绍
  • 下载MIT-CBCL数据集并将其加载到内存中
  • 绘制并可视化目录中的图像
  • 图像预处理
  • 模型构建、训练和分析
  • 11 使用Word2Vec创建和可视化单词向量
  • 介绍
  • 获取数据
  • 导入必要的库
  • 准备数据
  • 构建和训练模型
  • 进一步可视化
  • 进一步分析
  • 12 使用Keras创建电影推荐引擎
  • 介绍
  • 下载MovieLens数据集
  • 操作和合并MovieLens数据集
  • 探索MovieLens数据集
  • 为深度学习流水线准备数据集
  • 应用Keras深度学习模型
  • 评估推荐引擎的准确度
  • 13 使用TensorFIow在Spark中进行图像分类
  • 介绍
  • 下载梅西和罗纳尔多各30张图像
  • 使用深度学习包安装PySpark
  • 将图像加载到PySpark数据帧
  • 理解迁移学习
  • 创建用于图像分类训练的流水线
  • 评估模型性能
  • 微调模型参数
  • 反侵权盗版声明
展开全部