作品简介

站点可靠性工程(Site Reliability Engineering,简称SRE)是一个令人兴奋的新兴领域,它专注于如何确保系统稳定、可靠地运行。本书基于一个金字塔层次结构模型,深入浅出地介绍了关于SRE的方方面面,涉及监控、事故响应与回顾、测试与发布、容量规划、开发、用户体验设计,以及贯穿其中的沟通技巧。

本书是SRE工程师、DevOps工程师、运维工程师和系统管理员不可或缺的参考资料;软件架构师、软件工程师、用户体验设计师也能从本书中获取关于SRE的相关知识。

纳特·韦尔奇(Nat Welch),是一名美国的软件开发人员。自2005年以来,他一直做着网站构建及运维的工作。他热爱网站的基础设施建设,因为这可以支持其他人的创造性努力。2012年,Nat成为谷歌的SRE(Site Reliability Engineering,站点可靠性工程)工程师,并爱上了这个职业。从那时起,他在各种规模的公司工作过,并一直致力于提高网站的可靠性,以帮助开发人员构建可靠的系统。

作品目录

  • 内容简介
  • 推荐序1
  • 推荐序2
  • 推荐序3
  • 前言
  • 1 简介
  • SRE简史
  • SRE是什么
  • 关于这本书
  • 以SRE作为新项目的框架
  • 小结
  • 2 监控
  • 为什么要监控
  • 检测应用程序
  • 收集和保存监控数据
  • 展示监控信息
  • 管理和维护监控数据
  • 沟通
  • 小结
  • 参考资料
  • 3 事故响应
  • 什么是事故
  • 什么是事故响应
  • 警报
  • 随时待命
  • 沟通
  • 恢复系统
  • 警报解除
  • 小结
  • 4 事后回顾
  • 什么是事后回顾
  • 为什么写事后回顾报告
  • 何时写事后回顾报告
  • 开展事故分析
  • 如何写事后回顾报告
  • 停止事后指责
  • 举行事后回顾会议
  • 分析以往的事后回顾报告
  • 小结
  • 参考资料
  • 5 测试和发布
  • 测试
  • 发布
  • 自动化
  • 小结
  • 6 容量规划
  • 企业财务简介
  • 为什么需要规划
  • 定义一个规划
  • 架构——性能变化的根源
  • 技术作为利润中心和采购
  • 小结
  • 7 构建工具
  • 定义项目
  • 项目计划
  • 构建项目
  • 文档与维护项目
  • 小结
  • 8 用户体验
  • 设计和用户体验简介
  • 用户测试
  • 开发者体验
  • 工具经验
  • 绩效预算
  • 安全性
  • ACM道德准则
  • 小结
  • 参考资料
  • 9 网络基础
  • 互联网
  • 发送一个HTTP请求
  • 网络监控工具
  • 小结
  • 参考资料
  • 10 Linux 和云基础
  • Linux基础
  • 云基础
  • 伸缩单元
  • 架构面试示例
  • 小结
  • 参考资料
展开全部