作品简介

本书是一本Spark GraphX入门书籍。前5章为基础内容,即使读者对Spark、GraphX、Scala不熟悉,也能快速上手;后5章为图计算进阶,主要是图算法和机器学习算法的相关内容。专门讲图计算的书很少,本书在第2、3、4章介绍了图的基础知识、GraphX基础知识、GraphX内置的图算法。第6章到第10章,主要介绍了GraphX之外的图算法、机器学习、图工具、GraphX监控和优化、GraphX的能力增强等实用技能。第9章和第10章主要介绍性能调优和监控,主要面向生产环境,有不少可以借鉴的技巧。本书面向对图计算感兴趣的读者,旨在帮助读者掌握Spark GraphX的相关知识及其应用。

迈克尔·S.马拉克(Michael S.Malak),一直从事软件开发工作,自2013年年初以来他一直用Spark为财富200强的公司做开发工作,经常进行演示和分享,特别是在科罗拉多州他住的丹佛/博尔德地区。他的个人技术博客的地址是http://technicaltidbit.com

罗宾·伊斯特(Robin East),在一些大型企业曾担任过15年以上的顾问,在金融、政府、医疗保健和公共事业领域提供大数据和智能解决方案。他是Worldpay的数据科学家,帮助公司实现把数据用于核心业务上。可以在这里看到他在Spark、GraphX和机器学习方面的作品:https://mlspeed.wordpress.com

作品目录

  • 译者序
  • 序言
  • 致谢
  • 关于本书
  • 关于封面插图
  • 第1部分 Spark和图
  • 1 两项重要的技术:Sp1ark和图
  • 1.1 Spark:超越Hadoop MapReduce
  • 1.2 图:挖掘关系中的含义
  • 1.3 把快如闪电的图处理放到一起:Spark GraphX
  • 1.4 小结
  • 2 GraphX快速入门
  • 2.1 准备开始并准备数据
  • 2.2 用Spark Shell做GraphX交互式查询
  • 2.3 PageRank算法示例
  • 2.4 小结
  • 3 基础知识
  • 3.1 Scala——Spark的原生编程语言
  • 3.2 Spark
  • 3.3 图术语解释
  • 3.4 小结
  • 第2部分 连接顶点
  • 4 GraphX 基础
  • 4.1 顶点对象与边对象
  • 4.2 mapping操作
  • 4.3 序列化/反序列化
  • 4.4 图生成
  • 4.5 Pregel API
  • 4.6 小结
  • 5 内置图算法
  • 5.1 找出重要的图节点:网页排名
  • 5.2 衡量连通性:三角形数
  • 5.3 查找最少的跳跃:最短路径
  • 5.4 找到孤岛人群:连通组件
  • 5.5 受欢迎的回馈:增强连通组件
  • 5.6 社区发现算法:标签传播
  • 5.7 小结
  • 6 其他有用的图算法
  • 6.1 你自己的GPS:有权值的最短路径
  • 6.2 旅行推销员问题:贪心算法
  • 6.3 路径规划工具:最小生成树
  • 6.4 小结
  • 7 机器学习
  • 7.1 监督、无监督、半监督学习
  • 7.2 影片推荐:SVDPlusPlus
  • 7.3 在MLlib中使用GraphX
  • 7.4 穷人(简化版)的训练数据:基于图的半监督学习
  • 7.5 小结
  • 第3部分 更多内容
  • 8 缺失的算法
  • 8.1 缺失的基本图操作
  • 8.2 读取RDF图文件
  • 8.3 穷人(简化版)的图同构:找到Wikipedia缺失的信息
  • 8.4 全局聚类系数:连通性比较
  • 8.5 小结
  • 9 性能和监控
  • 9.1 监控Spark应用
  • 9.2 Spark配置
  • 9.3 Spark性能调优
  • 9.4 图分区
  • 9.5 小结
  • 10 更多语言以及工具
  • 10.1 在GraphX中使用除Scala外的其他语言
  • 10.2 其他可视化工具:Apache Zeppelin 和 d3.js
  • 10.3 类似一个数据库:Spark Job Server
  • 10.4 通过GraphFrames在Spark的图上使用SQL
  • 10.5 小结
  • 附录A 安装Spark
  • 附录B Gephi可视化软件
  • 附录C 更多资源
  • 附录D 本书中的Scala小贴士
展开全部