作品简介

强化学习是实现决策智能的主要途径之一。经历数十年的发展,强化学习领域已经枝繁叶茂,技术内容纷繁复杂,这也为初学者快速入门造成障碍。本书是一本深度强化学习领域的入门读物。全书分为四部分。第一部分主要阐述强化学习领域的基本理论知识;第二部分讲解深度强化学习常用算法的原理、各算法之间的继承与发展,以及各自的算法流程;第三部分总结深度强化学习算法在游戏、推荐系统等领域的应用;第四部分探讨了该领域存在的问题和发展前景。本书适合对强化学习感兴趣的读者阅读。

陈世勇,腾讯游戏AI研究中心高级算法研究员。毕业于南京大学机器学习与数据挖掘研究所,主要从事强化学习、分布式机器学习方面的研究工作,并在国际会议和期刊上发表多篇论文。对于大规模强化学习在游戏AI和推荐系统领域的研究和落地有着丰富经验,负责了多款游戏的强化学习AI项目和“淘宝锦囊”强化学习推荐项目研发,参与了虚拟淘宝项目研发。

苏博览,新加坡国立大学博士,曾任职于腾讯游戏AI研究中心,参与了QQ飞车和斗地主游戏AI的研发,在国际会议和期刊发表论文数十篇,在机器学习和强化学习上有丰富的科研和落地应用经验。

杨敬文,腾讯游戏AI研究中心高级算法研究员。毕业于南京大学机器学习与数据挖掘研究所,获南京大学“优秀毕业生”称号、南京大学计算机优秀硕士毕业论文奖。曾获全国大学生大数据竞赛名,在国际顶会发表多篇论文和技术文章。长期从事强化学习在游戏领域的研究与应用,是竞速类、格斗类、射击类、多人在线战术竞技类等强化学习AI项目的主要负责人之一,具有丰厚的强化学习研究和落地的经验。

作品目录

  • 好评袭来
  • 前言
  • 第一部分 基础理论篇
  • 1 马尔可夫决策过程
  • 1.1 马尔可夫性
  • 1.2 一些基本定义
  • 1.3 值函数
  • 1.4 基于策略的值函数
  • 1.5 贝尔曼方程
  • 1.6 策略迭代与值迭代
  • 2 无模型的强化学习
  • 2.1 蒙特卡罗方法
  • 2.2 时间差分方法
  • 2.3 值函数估计和策略搜索
  • 3 有模型的强化学习
  • 3.1 什么是模型
  • 3.2 基本思路
  • 3.3 有模型方法和无模型方法的区别
  • 3.4 典型算法
  • 第二部分 常用算法篇
  • 4 DQN算法
  • 4.1 算法介绍
  • 4.2 相关改进
  • 4.3 实验效果与小结
  • 5 A3C算法
  • 5.1 Actor-Critic方法
  • 5.2 基线减法与优势函数
  • 5.3 博采众长的A3C算法
  • 5.4 实验效果与小结
  • 6 确定性策略梯度方法
  • 6.1 随机性策略梯度与确定性策略梯度
  • 6.2 异策略的确定性策略梯度
  • 6.3 深度确定性策略梯度
  • 6.4 D4PG算法
  • 6.5 实验效果与小结
  • 7 PPO算法
  • 7.1 PPO算法的核心
  • 7.2 TRPO算法
  • 7.3 PPO算法
  • 7.4 实验效果与小结
  • 8 IMPALA算法
  • 8.1 算法架构
  • 8.2 V-trace算法
  • 8.3 V-trace Actor-Critic算法
  • 8.4 实验效果与小结
  • 第三部分 应用实践篇
  • 9 深度强化学习在棋牌游戏中的应用
  • 9.1 棋盘类游戏
  • 9.2 牌类游戏
  • 10 深度强化学习在电子游戏中的应用
  • 10.1 研发游戏中的机器人
  • 10.2 制作游戏动画
  • 10.3 其他应用
  • 11 深度强化学习在推荐系统中的应用
  • 11.1 适用的场景
  • 11.2 淘宝锦囊推荐中的应用
  • 12 深度强化学习在其他领域中的应用
  • 12.1 在无人驾驶中的应用
  • 12.2 金融交易中的应用
  • 12.3 信息安全中的应用
  • 12.4 自动调参中的应用
  • 12.5 交通控制中的应用
  • 第四部分 总结与展望篇
  • 13 问题与挑战
  • 13.1 样本利用率低
  • 13.2 奖赏函数难以设计
  • 13.3 实验效果难复现
  • 13.4 行为不完全可控
  • 14 深度强化学习往何处去
  • 14.1 未来发展和研究方向
  • 14.2 审慎乐观,大有可为
  • 参考资料
展开全部