作品简介

本书以实践为导向,深入浅出,从人工智能技术、机器学习框架和微服务等概念讲起,对主流的人工智能云平台产品进行剖析和比较,对从训练学习到服务封装再到模型发布应用的全过程进行介绍,并对人工智能云平台技术栈涉及的云计算、集群管理、任务调度、共享存储等技术进行了详细讲解,以提高研发人员对人工智能全生产流程的理解。书中结合以上技术知识,以目前较为主流的开源人工智能集群管理云平台为例,对相关工程案例进行了深入讲解,帮助读者加深对知识点的理解和掌握。本书适合有一定机器学习基础和大数据基础的学生、研发人员或希望进入人工智能云平台领域的读者阅读和学习。同时,也希望本书能帮助更多人在人工智能时代找到自己的方向和定位。

孙皓,博士,主要研究方向为图像理解、视频分析、机器学习平台等。设计研发了特定领域分布式图像并行检测识别系统、多源数据机器学习智能平台等智能应用系统。主持多项国家自然科学基金、重大专项预研课题。曾荣获省级科学技术一等奖,并担任多个领域预研课题评审专家和多个期刊的审稿人。发表SCI论文20余篇,指导硕士生10余人。

郑歆慰,2014年获得中国科学院大学博士学位,现为中国科学技术大学类脑智能技术及应用国家工程实验室特任副研究员,主要研究方向为机器学习系统,发表论文10余篇,是类脑智能开放平台、OpenPAI、启智社区等的活跃贡献者。

张文凯,博士,中国科学院空天信息创新研究院地理与赛博空间信息技术研究部助理研究员,IEEE会员,主要研究方向为遥感图像处理、多模态数据处理以及智能计算平台开发。担任中国图象图形学报、IEEE Geoscience and Remote Sensing Letters、IET Image Processing、IET Intelligent Transport Systems等期刊审稿人。在国内外核心期刊上发表学术论文10余篇,其中SCI期刊收录8篇。

作品目录

  • 内容提要
  • 引言
  • 第1章 人工智能云平台简介
  • 1.1 人工智能发展
  • 1.2 人工智能云平台
  • 1.3 云计算与人工智能云平台
  • 1.4 智能框架与人工智能云平台
  • 1.5 人工智能云平台的主要环节与基本组成
  • 1.6 小结
  • 参考文献
  • 第2章 人工智能云平台案例概览
  • 2.1 谷歌AI云平台
  • 2.2 微软Azure机器学习平台
  • 2.3 亚马逊 SageMaker平台
  • 2.4 企业自有智能平台
  • 2.5 小结
  • 参考文献
  • 第3章 共享存储与数据管理
  • 3.1 基本概念
  • 3.2 古老而有活力的NFS
  • 3.3 活跃于超算领域的Lustre
  • 3.4 数据集管理
  • 3.5 小结
  • 参考文献
  • 第4章 资源管理与调度
  • 4.1 概述
  • 4.2 Docker简介
  • 4.3 任务调度系统架构简介
  • 4.4 基于YARN的调度系统实现
  • 4.5 基于Kubernetes的调度系统实现
  • 4.6 小结
  • 参考文献
  • 第5章 运维监控系统
  • 5.1 Prometheus概述
  • 5.2 数据采集之Exporter
  • 5.3 数据格式与编程——Prometheus查询语言
  • 5.4 数据可视化之Grafana
  • 5.5 告警系统之AlertManager
  • 5.6 小结
  • 参考文献
  • 第6章 机器学习框架
  • 6.1 SciPy
  • 6.2 scikit-learn
  • 6.3 Pandas
  • 6.4 Spark MLlib和Spark ML
  • 6.5 XGBoost
  • 6.6 TensorFlow
  • 6.7 PyTorch
  • 6.8 其他
  • 6.9 小结
  • 参考文献
  • 第7章 分布式并行训练
  • 7.1 并行训练概述
  • 7.2 并行编程工具
  • 7.3 深度学习中的并行
  • 7.4 小结
  • 参考文献
  • 第8章 自动机器学习
  • 8.1 AutoML概述
  • 8.2 特征工程
  • 8.3 模型选择
  • 8.4 优化算法选择
  • 8.5 神经架构搜索
  • 8.6 搜索优化和评估
  • 8.7 小结
  • 参考文献
  • 第9章 模型构建与发布
  • 9.1 模型构建流程
  • 9.2 基于TensorFlow构建方案
  • 9.3 基于Seldon Core的模型部署
  • 9.4 小结
  • 参考文献
  • 第10章 可视化开发环境
  • 10.1 Jupyter Notebook
  • 10.2 PyCharm
  • 10.3 Visual Studio Code
  • 10.4 code-server
  • 10.5 TensorBoard
  • 10.6 小结
  • 参考文献
  • 第11章 DIGITS实践
  • 11.1 DIGITS配置
  • 11.2 DIGITS示例
  • 11.3 DIGITS源码解析
  • 11.4 小结
  • 参考文献
  • 第12章 Kubeflow实践
  • 12.1 什么是Kubeflow?
  • 12.2 Kubeflow部署
  • 12.3 JupyterHub
  • 12.4 Kubeflow-operator
  • 12.5 Katib
  • 12.6 小结
  • 参考文献
  • 第13章 OpenPAI实践
  • 13.1 直观感受
  • 13.2 平台架构
  • 13.3 集群运维
  • 13.4 OpenPAI代码导读
  • 13.5 小结
  • 参考文献
展开全部