作品简介

混沌工程已然腾飞。在各个垂直领域,成千上万的各种类型和规模的公司都将混沌工程作为核心实践,以使公司的产品和服务更安全、更可靠。虽然相关主题的资源(尤其是会议演讲)十分丰富,但都无法描绘混沌工程的全貌。

Nora和Casey着手编写了这本完整讨论混沌工程的书。因为整个行业都在广泛实践混沌工程,而且该学科也在不断地发展,所以编写本书并不轻松。本书会展现混沌工程背后的历史,讨论奠定混沌工程基础的理论、定义和原则,研究整个软件行业实现混沌工程的方式,分析传统软件无法企及的示例,以及混沌工程实践的未来。

Casey Rosenthal是Verica公司的首席执行官兼联合创始人。他曾任Netflix公司混沌工程团队的工程经理。他在分布式系统、人工智能、将新颖的算法和学术界知识转化为能落地的模型以及向客户和同事描绘宏大的愿景方面具备丰富的经验。他具备超常的能力,能将团队带出迷茫,踏上高绩效之路。他的个人使命是帮助人们看到不同和更好的可能性。他乐于使用Ruby、Erlang、Elixir和Prolog等编程语言对人类行为进行建模。

Nora Jones是Jeli公司的联合创始人兼首席执行官。她是一位敬业且充满自驱力的技术领导者和软件工程师,对分布式系统中人与软件在工作中的交集充满热情。2017年11月,她在AWS re:Invent大会上向4万余人发表主题演讲,分享了她帮助组织实现关键的系统可用性的经验,帮助启动了我们今天所看到的混沌工程运动。从那以后,她在许多全球会议上发表主题演讲,重点介绍了她在韧性工程、混沌工程、人因工程、站点可靠性等主题上的心得,以及在Netflix、Slack和Jet.com公司积累的经验。

作品目录

  • O’Reilly Media, Inc.介绍
  • 译者序
  • 前言
  • 导言:混沌工程的诞生
  • 第一部分 搭建舞台
  • 第1章 遇到复杂系统
  • 1.1 思考复杂性
  • 1.2 遇到复杂性
  • 1.3 面对复杂性
  • 1.4 接纳复杂性
  • 第2章 应对复杂系统
  • 2.1 动态安全模型
  • 2.2 复杂性的经济支柱模型
  • 2.3 系统化视角
  • 第3章 原则概述
  • 3.1 混沌工程是什么
  • 3.2 混沌工程不是什么
  • 3.3 高级原则
  • 3.4 原则的未来
  • 第二部分 投入实战
  • 第4章 Slack的灾难剧场
  • 4.1 旧系统的混沌工程改造
  • 4.2 灾难剧场
  • 4.3 混沌工程的过程
  • 4.4 过程如何演化
  • 4.5 获得管理层支持
  • 4.6 结果
  • 4.7 总结
  • 第5章 谷歌DiRT:灾难恢复测试
  • 5.1 DiRT测试的生命周期
  • 5.2 谷歌的测试范围
  • 5.3 总结
  • 第6章 微软的多样化故障和实验优先级
  • 6.1 为什么一切都如此复杂
  • 6.2 实验结果的类别
  • 6.3 故障优先级
  • 6.4 多样化的程度
  • 6.5 大规模部署实验
  • 6.6 总结
  • 第7章 LinkedIn心中有会员
  • 7.1 从灾难中学习
  • 7.2 细化实验目标
  • 7.3 安全地进行大规模实验
  • 7.4 LinkedOut实战
  • 7.5 总结
  • 第8章 采纳并演进混沌工程的第一资本金融公司
  • 8.1 第一资本金融公司案例研究
  • 8.2 设计实验时需要注意的事项
  • 8.3 工具链
  • 8.4 团队结构
  • 8.5 传播
  • 8.6 总结
  • 第三部分 人为因素
  • 第9章 先见之明
  • 9.1 混沌工程与韧性
  • 9.2 混沌工程的步骤
  • 9.3 混沌工程实验的工具支持
  • 9.4 有效的内部合作
  • 9.5 总结
  • 第10章 人类系统的混沌
  • 10.1 系统中的人
  • 10.2 工程师团队的适应能力
  • 10.3 付诸实践
  • 第11章 决策圈中的人
  • 11.1 实验的原因、方法和时机
  • 11.2 总结
  • 第12章 实验选择问题及解决方案
  • 12.1 选择实验
  • 12.2 可观测性:机会来了
  • 12.3 总结
  • 第四部分 商业因素
  • 第13章 混沌工程的投资回报率
  • 13.1 减少事故所带来的好处转瞬即逝
  • 13.2 Kirkpatrick模型
  • 13.3 投资回报率替代方案示例
  • 13.4 附带投资回报率
  • 13.5 总结
  • 第14章 将心态、科学和混沌开放
  • 14.1 协作心态
  • 14.2 开放科学与开放源代码
  • 14.3 总结
  • 第15章 混沌成熟度模型
  • 15.1 采用度
  • 15.2 复杂性
  • 15.3 总结
  • 第五部分 持续演进
  • 第16章 持续验证
  • 16.1 持续验证从何而来
  • 16.2 持续验证系统的类型
  • 16.3 持续验证示例:ChAP
  • 16.4 持续验证的未来用例
  • 第17章 介入信息物理系统
  • 17.1 信息物理系统的兴起
  • 17.2 功能安全遇上混沌工程
  • 17.3 信息物理系统的软件
  • 17.4 混沌工程超越FMEA
  • 17.5 探针效应
  • 17.6 总结
  • 第18章 当HOP遇上混沌工程
  • 18.1 什么是HOP
  • 18.2 HOP的主要原则
  • 18.3 HOP遇上混沌工程
  • 18.4 总结
  • 第19章 数据库的混沌工程
  • 19.1 为什么我们需要混沌工程
  • 19.2 应用混沌工程
  • 19.3 检测故障
  • 19.4 自动化混沌工程
  • 19.5 总结
  • 第20章 安全混沌工程的案例
  • 20.1 现代安全手段
  • 20.2 安全混沌工程与现有方法
  • 20.3 安全Game Day
  • 20.4 安全混沌工程工具示例:ChaoSlingr
  • 20.5 总结
  • 第21章 结语
  • 作者简介
  • 译者简介
  • 封面简介
展开全部