深度强化学习

admin 2025年07月16日 9次浏览

深度强化学习

图书封面;

副标题:无;

作者: 王树森;

内容简介:

序言

格物致知,知行合一

强化学习研究序贯决策问题,它同监督学习、无监督学习一起构成机器学习的三大学习范式. 强化学习像无监督学习一样不存在有标签的训练集,但它通过与环境交互并在奖惩制度的不断刺激下驱使系统学习如何最大化自己的利益或最小化自己的损失,这也与被动地获得有标签训练数据集的监督学习场景不同. 强化学习植根于人工智能领域,但它与最优控制、运筹学、随机规划有着紧密的联系. 它们都试图克服经典动态规划求解高维问题所面临的“维数诅咒”问题.

现代强化学习主要基于随机模拟思想,它的奠基性工作始于 1989 年 Chris Watkins 提出的 Q 学习方法. 人工神经网络作为一种函数逼近技术自然被引入强化学习,由此,Dimitri Bertsekas 和 John Tsitsiklis (1996) 提出了神经动态规划的概念. 随着深度神经网络的突破性崛起,强化学习得以以“深度强化学习”而复兴. 深度学习和强化学习构成现代人工智能技术的两翼. 深度学习提供了一种强大的数据表示或函数逼近途径,而强化学习则提供了一种求解问题的方法论或通用技术途径.

我本人于 2017 年在北京大学开始讲授深度学习,次年又讲授强化学习. 虽然这两门课都有非常经典的教材供参考,但是讲授难度还是比较大——既需要兼顾数学原理和动手实践,又需要兼顾经典方法和前沿成果. 特别地,深度学习更多是各种方法、技术和应用场景的荟萃,缺乏一条清晰的脉络将知识点串联起来. 相对而言,强化学习的数学脉络清晰且较为具体,因为它建立在马尔可夫决策过程基础上,而贝尔曼方程定义了问题求解的最优性准则. 然而,强化学习在实践上又不如深度学习有那么丰富的开源平台.

本书是王树森博士根据自己讲授的深度强化学习课程材料整理而成的(详见前言部分). 本书吸收了强化学习的经典方法和最新的前沿成果,同时兼顾了算法原

目录预览:

​ 深度强化学习
序言
前言
常用符号
第一部分 基础知识
第 1 章 机器学习基础
第 2 章 蒙特卡洛方法
第 3 章 强化学习基本概念
第二部分 价值学习
第 4 章 DQN 与 Q 学习
第 5 章 SARSA 算法
第 6 章 价值学习高级技巧
第三部分 策略学习
第 7 章 策略梯度方法
第 8 章 带基线的策略梯度方法
第 9 章 策略学习高级技巧
第 10 章 连续控制
第 11 章 对状态的不完全观测
第 12 章 模仿学习
第四部分 多智能体强化学习
第 13 章 并行计算
第 14 章 多智能体系统
第 15 章 完全合作关系设定下的多智能体强化学习
第 16 章 非合作关系设定下的多智能体强化学习
第 17 章 注意力机制与多智能体强化学习
第五部分 应用与展望
第 18 章 AlphaGo 与蒙特卡洛树搜索
第 19 章 现实世界中的应用
附录 A 贝尔曼方程
附录 B 习题答案
参考文献


[EPUB下载]