作品简介

本书内容聚焦于资源侧:集群调度和管理,非一般性的应用集群调度和管理。本书按集群调度和集群管理两大部分来组织内容,从不同的侧重点出发,集群调度部分侧重调度,集群管理部分侧重管理,但实质上这两部分是相辅相成的。集群管理是为了保障集群系统被更好地调度,集群调度是集群管理的重要内容和抓手。本书内容主要包括:集群任务与集群资源调度、资源调度领域的本质问题和衡量指标、调度算法的基本原理、调度架构设计和实践、集群管理的问题抽象、管理问题的衡量、管理策略等。

本书内容源于作者在阿里巴巴集团内部的资源调度和管理的实践经验,同时作者也广泛阅读了网络上的相关技术文档、开源代码。

李雨前,最近从事阿里云ECS弹性计算产品售卖、产品运营推荐、库存供应等工作,有4年的大规模(阿里巴巴百万级容器)集群资源管理调度实践经验:包括经历和推动多个调度核心系统和模块,针对long-time service及co-location调度具有全面、深入的一线实践和解决问题经验,提交10+项相关发明专利;擅长稳定性优先的集群调度策略和稳定性架构设计、全局稳定性数据分析实践,以及Java和Go编程语言。

信息检索科班毕业:1.超过7年的信息检索学习、研发经验,多项相关发明专利;2.对信息检索,特别是基于lucene、solr的全文检索有深入、全面的掌握(负责研发管理最大搜索集群120亿记录、16TB索引)。3.一直对分词、个性化排序、短文本处理,有浓厚的兴趣,并在多个业务实践中得到发挥。

作品目录

  • 内容简介
  • 前言
  • 第1部分 集群调度
  • 第1章 集群任务与集群资源调度
  • 1.1 集群调度概述
  • 1.2 集群任务调度
  • 1.3 集群资源调度
  • 第2章 资源调度核心指标
  • 2.1 业务背景
  • 2.2 资源调度性能
  • 2.3 资源调度成功率
  • 2.4 资源分配率
  • 2.5 资源实际利用率
  • 2.6 资源利用率最优剖析
  • 第3章 基本调度算法
  • 3.1 装箱算法
  • 3.2 操作系统CFS调度
  • 3.3 操作系统PV操作
  • 3.4 Golang GMP模型
  • 3.5 Kubernetes调度算法
  • 3.6 Hadoop调度算法
  • 3.7 “双11”调度算法
  • 3.8 云端资源调度算法
  • 3.9 单机资源调度
  • 3.10 调度评测
  • 第4章 资源调度架构设计和实践
  • 4.1 资源视图下的架构划分
  • 4.2 集群调度基本构件
  • 4.3 集群资源管理角度
  • 4.4 分层与垂直化分工协同
  • 4.5 中心调度与单机调度定位
  • 4.6 规模化、平台化与个性化、场景化
  • 4.7 解决问题优先与架构设计改进
  • 第2部分 集群管理
  • 第5章 集群资源管理含义
  • 5.1 集群资源管理解决什么问题
  • 5.2 集群资源调度和资源管理的关系
  • 5.3 集群资源管理一般怎么做
  • 第6章 集群资源管理核心指标
  • 6.1 集群资源管理效能指标
  • 6.2 集群资源软硬件故障率
  • 6.3 集群资源可用率
  • 6.4 集群资源分配率
  • 6.5 集群资源利用率
  • 第7章 集群资源管理常用策略
  • 7.1 基础设施镜像化
  • 7.2 统一资源池
  • 7.3 标签化管理
  • 7.4 面向终态巡检和一致性修复
  • 7.5 数据驱动
  • 7.6 集群资源计收费
  • 参考资料
  • 附录A
展开全部