作品简介

ODPS(Open Data Processing Service)是阿里巴巴自主研发的海量数据处理和分析的服务平台,主要应用于数据分析、海量数据统计、数据挖掘、机器学习和商业智能等领域。目前,ODPS不仅在阿里内部得到广泛应用,享有很好的口碑,正逐步走向第三方开放市场。

本书是学习和掌握ODPS的权威指南,作者来自阿里ODPS团队。全书共13章,主要内容包括:ODPS入门、整体架构、数据通道、MapReduce编程、SQL查询分析、安全,以及基于真实数据的各种场景分析实战。本书基于很多范例解析,通过在各种应用场景下的示例来说明如何通过ODPS完成各种需求,以期引导读者从零开始轻松掌握和使用ODPS。同时,本书不局限于示例分析,也致力于提供更多关于大数据处理的编程思想和经验分享。书中所有示例代码都可以在作者提供的网站上免费下载。

本书是学习和掌握ODPS的权威指南,作者来自阿里ODPS团队。

本书包括以下重要内容:

ODPS概览及其基本知识;

如何高效地使用ODPS SQL;

MapReduce编程和进阶应用;

ODPS机器学习算法;

ODPS权限、资源和数据管理;

深入了解ODPS体系结构和高级机制。

书中所有示例代码都可以通过https://github.com/duckrun/odps_book免费下载。

本书适合想要了解和使用ODPS的读者阅读学习,对于从事大数据存储和应用以及分布式计算的专业人士来说,也是很好的参考资料。

李妹芳:阿里数据平台事业部工程师,曾译有《Linux系统编程》、《数据之美》、《数据可视化之美》等书,她喜欢儿童文学,她的微博是http://weibo.com/duckrun

作品目录

  • ODPS权威指南:阿里大数据平台应用开发实践
  • 推荐序一
  • 推荐序二
  • 推荐序三
  • 前言
  • 第1章 ODPS概述
  • 1.1 引言
  • 1.2 初识ODPS
  • 1.3 基本概念
  • 1.4 应用开发模式
  • 1.5 一些典型场景
  • 1.6 现状和前景
  • 1.7 小结
  • 第2章 ODPS入门
  • 2.1 准备工作
  • 2.2 使用管理控制台
  • 2.3 配置ODPS客户端
  • 2.4 网站日志分析实例
  • 2.5 获取帮助
  • 2.6 小结
  • 第3章 收集海量数据
  • 3.1 dship工具
  • 3.2 收集Web日志
  • 3.3 MySQL数据同步到ODPS
  • 3.4 下载结果表
  • 3.5 小结
  • 第4章 使用SQL处理海量数据
  • 4.1 ODPS SQL是什么
  • 4.2 入门示例
  • 4.3 网站日志分析
  • 4.4 天猫品牌预测
  • 4.5 小结
  • 第5章 SQL进阶
  • 5.1 UDF是什么
  • 5.2 入门示例
  • 5.3 实际应用案例
  • 5.4 SQL实现原理
  • 5.5 SQL调优
  • 5.6 小结
  • 第6章 通过Tunnel迁移数据
  • 6.1 ODPS Tunnel是什么
  • 6.2 入门示例
  • 6.3 Tunnel原理
  • 6.4 从Hadoop迁移到ODPS
  • 6.5 一些注意点
  • 6.6 小结
  • 第7章 使用MapReduce处理数据
  • 7.1 MapReduce编程模型
  • 7.2 MapReduce应用场景
  • 7.3 初识ODPS MapReduce
  • 7.4 入门示例
  • 7.5 TopK查询
  • 7.6 SQL和MapReduce,用哪个?
  • 7.7 小结
  • 第8章 MapReduce进阶
  • 8.1 再谈Shuffle & Sort
  • 8.2 好友推荐
  • 8.3 LBS应用探讨:周边定位
  • 8.4 MapReduce调试
  • 8.5 一些注意事项
  • 8.6 小结
  • 第9章 机器学习算法
  • 9.1 初识ODPS算法
  • 9.2 入门示例
  • 9.3 几个经典的算法
  • 9.4 天猫品牌预测
  • 9.5 小结
  • 第10章 使用SDK访问ODPS服务
  • 10.1 主要的Package和接口
  • 10.2 入门示例
  • 10.3 基于Eclipse插件开发
  • 10.4 小结
  • 第11章 ODPS权限、资源和数据管理
  • 11.1 权限管理
  • 11.2 资源管理
  • 11.3 数据管理
  • 11.4 小结
  • 第12章 深入了解ODPS
  • 12.1 体系架构
  • 12.2 执行流程
  • 12.3 底层数据存储
  • 12.4 内聚式框架
  • 12.5 跨集群复制
  • 12.6 小结
  • 第13章 探索ODPS之美
  • 13.1 R语言数据探索
  • 13.2 实时流计算
  • 13.3 图计算模型
  • 13.4 准实时SQL
  • 13.5 机器学习平台
  • 附录 ODPS消息认证机制
  • 后记
展开全部