作品简介

《智能运维:从0搭建大规模分布式AIOps系统》结合大企业的智能运维实践,全面完整地介绍智能运维的技术体系,让读者更加了解运维技术的现状和发展。同时,帮助运维工程师在一定程度上了解机器学习的常见算法模型,以及如何将它们应用到运维工作中。

《智能运维:从0搭建大规模分布式AIOps系统》共分4篇。第1篇运维发展史,重点阐述当前运维的发展现状及面临的技术挑战;第2篇智能运维基础设施,重点讲述大数据场景下的数据存储、大数据处理和分析的方法与经验,以及海量数据多维度多指标的处理分析技术;第3篇智能运维技术详解,重点关注在新时期大数据时代下智能化的运维技术,包括数据聚合与关联、数据异常点检测、故障诊断和分析、趋势预测算法;第4篇技术案例详解,为大家梳理了通过开源框架ELK快速构建智能监控系统的整体方案,还将分享微博平台和微博广告两个不同业务场景下智能监控系统的技术实践。

《智能运维:从0搭建大规模分布式AIOps系统》适合运维、开发、架构、DevOps工程师及广大互联网技术爱好者研读和借鉴。

彭冬:微博广告基础架构团队负责人、技术专家,商业大数据平台及智能监控平台发起人,目前负责广告核心引擎基础架构、Hubble智能监控系统、商业基础数据平台(D+)等基础设施建设。关注计算广告、大数据、人工智能、高可用系统架构设计、区块链等方向。在加入微博之前,曾就职于百度负责大数据平台建设,曾担任趣点科技联合创始人兼CTO等职位。毕业于西北工业大学,曾在国内外知名期刊发表多篇学术论文,拥有9项发明专利。

朱伟@kimi:微博广告SRE团队技术负责人,高级运维工程师,2016年4月加入微博,目前主要负责微博广告智能监控报警平台和服务治理等项目的建设与研究。

刘俊:微博平台部监控技术负责人,负责微博平台、PC微博大规模监控系统的建设,主要关注实时大数据、运维自动化、智能化方向。2014年加入微博,之前曾在新浪、搜狐等公司从事运维监控方面的工作。

王莉:University of Georgia硕士研究生,主要研究用机器学习方法,识别植物被水淹没的季节性规律,研究成果已发表在SCI高影响因子期刊。2017年加入微博广告团队,致力于用数据分析和机器学习模型,优化广告业务策略,洞悉商业价值。

陆松林:微博广告数据仓库负责人,高级研发工程师,先后就职于搜狐、爱奇艺,主要研究数据仓库、数据治理相关技术。

车亚强:微博广告大数据开发工程师,曾在百度外卖负责实时流、微服务相关研发工作,目前主要研究方向为实时流、微服务架构设计。

作品目录

  • 本书作者
  • 推荐语
  • 推荐序1:运维的时代化变迁
  • 推荐序2:运维的新视角
  • 推荐序3:大数据时代的运维
  • 推荐序4:智能运维也能“开箱即用”
  • 前言
  • 第1篇 开门见山:运维发展史
  • 第1章 运维现状
  • 1.1 运维工程
  • 1.2 运维发展历程
  • 1.3 运维现状
  • 1.4 本章小结
  • 1.5 参考文献
  • 第2章 智能运维
  • 2.1 海量数据的存储、分析和处理
  • 2.2 多维度、多数据源
  • 2.3 信息过载
  • 2.4 复杂业务模型下的故障定位
  • 2.5 本章小结
  • 2.6 参考文献
  • 第2篇 站在巨人肩上:智能运维基础设施
  • 第3章 开源数据采集技术
  • 3.1 数据采集工具对比
  • 3.2 轻量级采集工具Filebeat
  • 3.3 日志采集解析工具
  • 3.4 本章小结
  • 3.5 参考文献
  • 第4章 分布式消息队列
  • 4.1 开源消息队列对比与分析
  • 4.2 Kafka的安装与使用
  • 4.3 案例分析
  • 4.4 本章小结
  • 4.5 参考文献
  • 第5章 大数据存储技术
  • 5.1 传统数据存储
  • 5.2 基于HDFS的分布式存储
  • 5.3 分层存储
  • 5.4 案例分析
  • 5.5 本章小结
  • 5.6 参考文献
  • 第6章 大规模数据离线计算分析
  • 6.1 经典的离线计算
  • 6.2 分布式离线计算
  • 6.3 案例分析
  • 6.4 本章小结
  • 6.5 参考文献
  • 第7章 实时计算框架
  • 7.1 关于实时流计算
  • 7.2 Spark Streaming计算框架介绍
  • 7.3 Flink计算框架
  • 7.4 案例分析
  • 7.5 本章小结
  • 7.6 参考文献
  • 第8章 时序数据分析框架
  • 8.1 时序数据库简介
  • 8.2 时序数据库Graphite
  • 8.3 多维分析利器Druid
  • 8.4 性能神器ClickHouse
  • 8.5 本章小结
  • 8.6 参考文献
  • 第9章 机器学习框架
  • 9.1 简介
  • 9.2 TensorFlow介绍
  • 9.3 TensorFlow进阶
  • 9.4 本章小结
  • 9.5 参考文献
  • 第3篇 运维新时代:智能运维技术详解
  • 第10章 数据聚合与关联技术
  • 10.1 数据聚合
  • 10.2 降低维度
  • 10.3 数据关联
  • 10.4 实时数据关联案例
  • 10.5 本章小结
  • 10.6 参考文献
  • 第11章 数据异常点检测技术
  • 11.1 概述
  • 11.2 异常检测方法
  • 11.3 独立森林
  • 11.4 本章小结
  • 11.5 参考文献
  • 第12章 故障诊断和分析策略
  • 12.1 日志标准化
  • 12.2 全链路追踪
  • 12.3 SLA的统一
  • 12.4 传统的故障定位方法
  • 12.5 人工智能在故障定位领域的应用
  • 12.6 本章小结
  • 12.7 参考文献
  • 第13章 趋势预测算法
  • 13.1 移动平均法
  • 13.2 指数平滑法
  • 13.3 ARIMA模型
  • 13.4 神经网络模型
  • 13.5 本章小结
  • 13.6 参考文献
  • 第4篇 智能运维架构实践:技术案例详解
  • 第14章 快速构建日志监控系统
  • 14.1 Elasticsearch分布式搜索引擎
  • 14.2 可视化工具Kibana
  • 14.3 ELK搭建实践
  • 14.4 本章小结
  • 14.5 参考文献
  • 第15章 微博广告智能监控系统
  • 15.1 背景介绍
  • 15.2 整体架构
  • 15.3 核心功能分析
  • 15.4 本章小结
  • 第16章 微博平台通用监控系统
  • 16.1 背景
  • 16.2 整体架构
  • 16.3 核心模块
  • 16.4 第三方应用
  • 16.5 本章小节
  • 附录A 中国大数据技术大会2017(BDTC 2017)CSDN专访实录
展开全部