作品简介

本书以理论和实践相结合的形式深入浅出地介绍强化学习的历史、基本概念、经典算法和一些前沿技术,共分为三大部分:第一部分(第1~5章)介绍强化学习的发展历史、基本概念以及一些经典的强化学习算法;第二部分(第6~9章)在简要回顾深度学习技术的基础上着重介绍深度强化学习的一些前沿实用算法;第三部分(第10章)以五子棋为例详细讲解战胜了人类顶级围棋选手的Alpha Zero算法的核心思想。为了便于读者学习,本书的每一章都先介绍相关理论以及算法原理,随后通过精心编写的Python示例程序来实现算法、验证理论,让读者能够从理论文字、数学公式、示例代码三个方面综合理解强化学习。

本书由叶强、闫维新、黎斌编著。

作品目录

  • 前言
  • 致谢
  • 常用数学符号
  • 主要算法列表
  • 第1章 概述
  • 1.1 强化学习的历史
  • 1.2 强化学习的基本概念
  • 1.3 章节组织
  • 1.4 编程环境与代码资源
  • 第2章 从一个示例到马尔可夫决策过程
  • 2.1 马尔可夫过程
  • 2.2 马尔可夫奖励过程
  • 2.3 马尔可夫决策过程
  • 2.4 编程实践:学生马尔可夫决策示例
  • 第3章 动态规划寻找最优策略
  • 3.1 策略评估
  • 3.2 策略迭代
  • 3.3 价值迭代
  • 3.4 异步动态规划算法
  • 3.5 编程实践:动态规划求解小型格子世界最优策略
  • 第4章 不基于模型的预测
  • 4.1 蒙特卡罗强化学习
  • 4.2 时序差分强化学习
  • 4.3 n步时序差分学习
  • 4.4 编程实践:蒙特卡罗学习评估21点游戏的玩家策略
  • 第5章 无模型的控制
  • 5.1 行为价值函数的重要性
  • 5.2 贪婪策略
  • 5.3 同策略蒙特卡罗控制
  • 5.4 同策略时序差分控制
  • 5.5 异策略Q学习算法
  • 5.6 编程实践:蒙特卡罗学习求解21点游戏的最优策略
  • 5.7 编程实践:构建基于gym的有风的格子世界及个体
  • 5.8 编程实践:各类学习算法的实现及与有风的格子世界的交互
  • 第6章 价值函数的近似表示
  • 6.1 价值近似的意义
  • 6.2 目标函数与梯度下降
  • 6.3 常用的近似价值函数
  • 6.4 DQN算法
  • 6.5 编程实践:基于PyTorch实现DQN求解PuckWorld问题
  • 第7章 基于策略梯度的深度强化学习
  • 7.1 基于策略学习的意义
  • 7.2 策略目标函数
  • 7.3 Actor-Critic算法
  • 7.4 深度确定性策略梯度算法
  • 7.5 编程实践:DDPG算法实现
  • 第8章 基于模型的学习和规划
  • 8.1 环境的模型
  • 8.2 整合学习与规划——Dyna算法
  • 8.3 基于模拟的搜索
  • 第9章 探索与利用
  • 9.1 多臂游戏机
  • 9.2 常用的探索方法
  • 第10章 Alpha Zero算法实战
  • 10.1 自博弈中的蒙特卡罗树搜索
  • 10.2 模型评估中的蒙特卡罗搜索
  • 10.3 策略价值网络结构及策略提升
  • 10.4 编程实践:Alpha Zero算法在五子棋上的实现
  • 参考文献
展开全部