当前位置：首页 > news >正文

【王树森】深度强化学习(DRL)学习笔记

news 2026/2/8 20:36:39

第一部分：基础知识
- 1.机器学习基础
- 2.蒙特卡洛估计
- 3.强化学习基础知识
- - 3.1 马尔科夫决策过程
  - - 马尔可夫决策过程（Markov decision process，MDP）
    - 智能体
    - 环境
    - 状态
    - 状态空间
    - 动作
    - 动作空间
    - 奖励
    - 状态转移
    - 状态转移概率
  - 3.2 策略
  - - 策略定义
  - 3.3 随机性的来源
  - - 随机性的两个来源
    - 马尔科夫性质(无后效性)
    - 轨迹
  - 3.4 回报与折扣汇报
  - - 回报
    - 折扣回报
    - 回报中的随机性
  - 3.5 价值函数
  - - 动作-价值函数
第二部分：价值学习
- 4.DQN与Q学习
- - 4.1 DQN
  - 4.2 时间差分(TD)算法
  - 4.3 用TD算法训练DQN
  - 4.4 Q学习算法
  - 4.5 同策略(On-policy) 与异策略(Off-policy)
  - - 行为策略
    - 目标策略
    - 同策略
    - 异策略
- 5.SARSA算法
- - 5.1 表格形式的SARSA
  - - SARSA表格形式
    - Q学习与SARSA的对比
  - 5.2 神经网络形式的SARSA
  - - 价值网络
  - 5.3 多步TD 目标
  - 5.4 蒙特卡洛与自举
  - - 自举
- 6.价值学习高级技巧
- - 6.1 经验回放
  - - 经验回放定义
    - 经验回放的优点
    - 经验回放局限性
    - 优先经验回放
  - 6.2 高估问题及解决方法
  - - 自举导致高估
    - 最大化导致高估
    - 高估的危害
    - 使用目标网络
    - 双Q学习算法
  - 6.3 对决网络
  - 6.4 噪声网络
  - - 噪声网络的原理
第三部分：策略学习
- 7.策略梯度方法
- - 7.1 策略网络
  - - 策略学习
    - 策略网络
  - 7.2 策略学习的目标函数
  - 7.3 策略梯度定理的证明
  - - 近似策略梯度
  - 7.4 REINFORCE
  - - REINFORCE简化推导
    - 训练流程
  - 7.5 Actor-Critic
  - - 价值网络
    - 算法推导
    - 训练过程
    - 用目标网络改进训练
- 8.带基线的策略梯度方法
- 9.策略学习高级技巧
- 10.连续控制
- 11.对状态的不完全观测
- 12.模仿学习
第四部分：多智能体强化学习
- 13.并行计算

第一部分：基础知识

1.机器学习基础

2.蒙特卡洛估计

3.强化学习基础知识

基本术语：状态（state）、状态空间（state space）、动作（action）、动作空间（action space）、智能体（agent）、环境（environment）、策略 (policy)、奖励（reward）、状态转移（state transition）。
马尔可夫决策过程 (MDP) 通常指的是四元组 $(\mathcal{S}, \mathcal{A}, p, r)$ , 其中 $\mathcal{S}$ 是状态空间, $\mathcal{A}$ 是动作空间, $p$ 是状态转移函数, $r$ 是奖励函数。有时 MDP 指的是五元组 $(\mathcal{S}, \mathcal{A}, p, r, \gamma)$ ,其中 $\gamma$ 是折扣率。
强化学习中的随机性来自于状态和动作。状态的随机性来源于状态转移, 动作的随机性来源于策略。奖励依赖于状态和动作, 因此奖励也具有随机性。
回报（或折扣回报）是未来所有奖励的加和（或加权和）。回报取决于奖励，奖励取决于状态和动作, 因此回报的随机性来自于未来的状态和动作。强化学习的目标是最大化回报，而不是最大化奖励。
动作价值函数 $Q_\pi(s, a)$ 、最优动作价值函数 $Q^{\star}(s, a)$ 、状态价值函数 $V_\pi(s)$ 。
强化学习分为基于模型的方法、无模型方法两大类。其中无模型方法又分为价值学习、策略学习两类。本书第二部分、第三部分会详细讲解价值学习和策略学习; 第 18 章用 AlphaGo 的例子讲解基于模型的方法。

3.1 马尔科夫决策过程

马尔可夫决策过程（Markov decision process，MDP）

一个MDP 通常由状态空间、动作空间、状态转移函数、奖励函数、折扣因子等组成

智能体

强化学习中谁做动作谁就是智能体

环境

与智能体交互的对象

状态

在每个时刻，环境有一个状态(state)，可以理解为对当前时刻环境的概括

状态空间

指所有可能存在状态的集合，记作花体字母 $\mathcal{S}$ 。状态空间可以是离散的，也可以是连续的。状态空间可以是有限集合，也可以是无限可数集合。在超级玛丽、星际争霸、无人驾驶这些例子中，状态空间是无限集合，存在无穷多种可能的状态。围棋、五子棋、中国象棋这些游戏中，状态空间是离散有限集合，可以枚举出所有可能存在的状态（也就是棋盘上的格局）。

动作

智能体基于当前状态所做出的决策

动作空间

指所有可能动作的集合，记作花体字母 $\mathcal{A}$ 。动作空间可以是离散集合或连续集合，可以是有限集合或无限集合。

奖励

是指在智能体执行一个动作之后，环境返回给智能体的一个数值。奖励往往由我们自己来定义，奖励定义得好坏非常影响强化学习的结果

通常假设奖励是当前状态 $s$ 、当前动作 $a$ 、下一时刻状态 $s^{\prime}$ 的函数, 把奖励函数记作 $r\left(s, a, s^{\prime}\right)$ 。有时假设奖励仅仅是 $s$ 和 $a$ 的函数, 记作 $r (s, a)$ 。我们总是假设奖励函数是有界的, 即对于所有 $\in \mathcal{A}$ 和 $s^{\prime} \in \mathcal{S}$ , 有 $\left|r\left(s, a, s^{\prime}\right)\right|<\infty$ 。

此处隐含的假设是奖励函数是平稳的（stationary），即它不随着时刻t变化(不太理解)

状态转移

是指智能体从当前t时刻的状态 $s$ 转移到下一个时刻状态为 $s^{\prime}$ 的过程。

状态转移概率

状态转移可能是随机的，强化学习通常假设状态转移随机，随机性来源于环境。用状态转移概率函数描述状态转移： $p\left(s^{\prime} \mid s, a\right)=\mathbb{P}\left(S^{\prime}=s^{\prime} \mid S=s, A=a\right),$
表示在当前状态 $s$ , 智能体执行动作 $a$ , 环境的状态变成 $s^{\prime}$ 的概率
大写字母表示随机变量，小写字母表示观测值
状态转移也可能是确定的，下一个状态 $s^{\prime}$ 完全由s和a决定

3.2 策略

策略定义

根据观测到的状态，如何做出决策，即如何从动作空间中选取一个动作。强化学习的目标就是得到一个策略函数，在每个时刻根据观测到的状态做出决策。

随机策略，记随机策略函数 $\pi:(s, a) \mapsto[0,1]$ 是一个概率密度函数 :
$\pi(a \mid s)=\mathbb{P}(A=a \mid S=s) .$
策略函数的输入是状态s和动作a，输出是一个0到1之间的概率值。含义是给定状态s，做出动作a的概率
确定策略：输入状态s，直接输出相应的动作a

3.3 随机性的来源

随机性的两个来源

状态是随机的，依赖于状态转移函数
动作是随机的，依赖于策略函数

马尔科夫性质(无后效性)

假设状态转移具有马有马尔可夫性质, 即：
$\mathbb{P}\left(S_{t+1} \mid S_t, A_t\right)=\mathbb{P}\left(S_{t+1} \mid S_1, A_1, S_2, A_2, \cdots, S_t, A_t\right) .$

公式的意思是下一时刻状态 $S_{t+1}$ 仅依赖于当前状态 $S_t$ 和动作 $A_t$ , 而不依赖于过去的状态和动作。
即在推导后面阶段的状态的时候，我们只关心前一个阶段的状态值，不关心这个状态是怎么一步一步推导出来的。

轨迹

指一回合（episode）游戏中，智能体观测到的所有的状态、动作、奖励。
在这里插入图片描述

3.4 回报与折扣汇报

回报

回报（return）是从当前时刻开始到本回合结束的所有奖励的总和，所以回报也叫做累计奖励（cumulative future reward）
$U_t=R_t+R_{t+1}+R_{t+2}+R_{t+3}+\cdots+R_n$
强化学习的目标就是寻找一个策略，使得回报的期望最大化

折扣回报

在MDP中，通常使用折扣回报，给未来的奖励做折扣：
$U_t=R_t+\gamma \cdot R_{t+1}+\gamma^2 \cdot R_{t+2}+\gamma^3 \cdot R_{t+3}+\cdots$ 其中， $\gamma∈[0,1]$ 叫做折扣率

回报中的随机性

t时刻的 $U_t$ 依赖于t时刻往后所有的奖励，奖励又依赖于状态与动作，因此t时刻 $U_t$ 是未知的。

3.5 价值函数

动作-价值函数

定义
在t时刻，我们不知道 $U_t$ 的值，而我们又想预判 $U_t$ 的值从而知道局势的好坏。该怎么办呢？解决方案就是对 $U_t$ 求期望，消除掉其中的随机性。
假设我们已经观测到状态 $s_t$ ，而且做完决策，选中动作 $a_t$ 。那么 $U_t$ 中的随机性来自于 $t + 1$ 时刻起的所有的状态和动作：
$S_{t+1}, A_{t+1}, \quad S_{t+2}, A_{t+2}, \cdots, \quad S_n, A_n$ 对 $U_t$ 关于变量 $S_{t+1}, A_{t+1}, \cdots, S_n, A_n$ 求条件期望, 得到的就是动作-价值函数：
$Q_\pi\left(s_t, a_t\right)=\mathbb{E}_{S_{t+1}, A_{t+1}, \cdots, S_n, A_n}\left[U_t \mid S_t=s_t, A_t=a_t\right]$
动作价值函数 $Q_\pi\left(s_t, a_t\right)$ 仅依赖于 $s_t$ 与 $a_t$ , 而不依赖于 $t + 1$ 时刻及其之后的状态和动作，因为随机变量 $S_{t+1}, A_{t+1}, \cdots, S_n, A_n$ 都被期望消除了。由于动作 $A_{t+1}, \cdots, A_n$ 的概率质量函数都是 $\pi$ , 公式中的期望依赖于 $\pi$ ; 用不同的 $\pi$ , 求期望得出的结果就会不同。因此 $Q_\pi\left(s_t, a_t\right)$ 依赖于 $\pi$ , 这就是为什么动作价值函数有下标 $\pi_。$
因此，动作价值函数依赖于三个因素，当前状态 $s_t$ ，当前动作 $a_t$ ，策略函数 $\pi$
直观含义：Q(s,a) 表示的是智能体在状态 s 下选择动作a 后，并一直按照策略 π 行动所能获得的总奖励(回报)的期望
具体过程：
1.起始:在状态s下选择动作 a。
2.转移:选择动作 a后，环境根据转移概率转移到新状态s’，并给予即时奖励 r1。
3.策略 π 执行:从状态 s’开始，智能体按照策略 π选择下一个动作 a’ .
4.重复:从状态s’开始，重复上述步骤(2和3)，直到达到终止状态或无限循环。

第二部分：价值学习

4.DQN与Q学习

$\mathrm{DQN}$ 是对最优动作价值函数 $Q^{\star}$ 的近似。 $\mathrm{DQN}$ 的输入是当前状态 $s_t$ , 输出是每个动作的 $\mathrm{Q}$ 值。 $\mathrm{DQN}$ 要求动作空间 $\mathcal{A}$ 是离散集合, 集合中的元素数量有限。如果动作空间 $\mathcal{A}$ 的大小是 $k$ , 那么 $\mathrm{DQN}$ 的输出就是 $k$ 维向量。 $\mathrm{DQN}$ 可以用于做决策, 智能体执行 $\mathrm{Q}$ 值最大的动作。
TD 算法的目的在于让预测更接近实际观测。以驾车问题为例, 如果使用 $\mathrm{TD}$ 算法,无需完成整个旅途就能做梯度下降更新模型。
理解TD 目标、TD 误差
$\mathrm{Q}$ 学习算法是 $\mathrm{TD}$ 算法的一种, 可以用于训练 $\mathrm{DQN}$ 。 $\mathrm{Q}$ 学习算法由最优贝尔曼方程推导出。 $\mathrm{Q}$ 学习算法属于异策略, 允许使用经验回放。由任意行为策略收集经验,存入经验回放数组。事后做经验回放, 用 TD 算法更新 DQN 参数。
如果状态空间 $\mathcal{S}$ 、动作空间 $\mathcal{A}$ 都是较小的有限离散集合, 那么可以用表格形式的 $\mathrm{Q}$ 学习算法学习 $Q^{\star}$ 。如今表格形式的 $\mathrm{Q}$ 学习已经不常用。
理解同策略、异策略、目标策略、行为策略这几个专业术语, 理解同策略与异策略的区别。异策略的好处在于允许做经验回放, 反复利用过去收集的经验。但这不意味着异策略一定优于同策略。

4.1 DQN

4.2 时间差分(TD)算法

4.3 用TD算法训练DQN

4.4 Q学习算法

上一节用TD算法训练DQN，TD算法是一大类算法，常见的有Q学习和SARSA。 $Q$ 学习的目的是学到最优动作价值函数 $Q^{\star}$ , 而 SARSA 的目的是学习动作价值函数 $Q_\pi$ 。

Q学习的表格形式是用一个表格 $\widetilde{Q}$ 来近似 $Q^{\star}$ 首先初始化 $\widetilde{Q}$ , 可以让它是全零的表格。然后用表格形式的 $\mathrm{Q}$ 学习算法更新 $\widetilde{Q}$ , 每次更新表格的一个元素。最终 $\widetilde{Q}$ 会收敛到 $Q^{\star}$ 。Q学习的表格法与策略无关

4.5 同策略(On-policy) 与异策略(Off-policy)

行为策略

定义
在强化学习中，我们让智能体与环境交互，记录下观测到的状态、动作、奖励，用这些经验来学习一个策略函数。在这一过程中，控制智能体与环境交互的策略被称作行为策略
作用
收集经验（experience），即观测的状态、动作、奖励

目标策略

定义
强化学习的目的是得到一个策略函数，用这个策略函数来控制智能体。这个策略函数就叫做目标策略。

同策略

定义：用相同的行为策略和目标策略

异策略

定义：用不同的行为策略和目标策略

DQN 是异策略, 行为策略可以不同于目标策略, 可以用任意的行为策略收集经验, 比如最常用的行为策略是 $\epsilon$ -greedy:
$a_t= \begin{cases}\operatorname{argmax}_a Q\left(s_t, a ; \boldsymbol{w}\right), & \text { 以概率 }(1-\epsilon) ; \\ \text { 均匀抽取 } \mathcal{A} \text { 中的一个动作, } & \text { 以概率 } \epsilon .\end{cases}$

让行为策略带有随机性的好处在于能探索更多没见过的状态。在实验中, 初始的时候让 $\epsilon$ 比较大 (比如 $\epsilon=0.5$ ) ; 在训练的过程中, 让 $\epsilon$ 逐渐衰减, 在几十万步之后衰减到较小的值（比如 $\epsilon=0.01 ）$ , 此后固定住 $\epsilon=0.01$ 。

异策略的好处是可以用行为策略收集经验, 把 $\left(s_t, a_t, r_t, s_{t+1}\right)$ 这样的四元组记录到一个数组里, 在事后反复利用这些经验去更新目标策略。这个数组被称作经验回放数组（replay buffer）, 这种训练方式被称作经验回放（experience replay）。注意，经验回放只适用于异策略, 不适用于同策略, 其原因是收集经验时用的行为策略不同于想要训练出的目标策略。
在这里插入图片描述

5.SARSA算法

SARSA 和 $\mathrm{Q}$ 学习都属于 $\mathrm{TD}$ 算法, 但是两者有所区别。SARSA 算法的目的是学习动作价值函数 $Q_\pi$ , 而 $\mathrm{Q}$ 学习算法目的是学习最优动作价值函数 $Q^{\star}$ 。SARSA 算法是同策略, 而 $\mathrm{Q}$ 学习算法是异策略。SARSA 不能用经验回放, 而 $\mathrm{Q}$ 学习可以用经验回放。
价值网络 $\boldsymbol{w})$ 是对动作价值函数 $Q_\pi(s, a)$ 的近似。可以用 SARSA 算法学习价值网络。
多步 TD 目标是对单步 TD 目标的推广。多步 TD 目标可以平衡蒙特卡洛和自举,取得比单步 TD 目标更好的效果。

5.1 表格形式的SARSA

SARSA表格形式

Actor-Critic方法中，策略函数 $\pi$ 控制智能体，被当做Actor(运动员)；动作价值函数 $Q_{\pi}$ 评价策略的好坏，被当做Critic(评委)；SARSA算法尝用于训练评委 $Q_{\pi}$

用一个表格表示动作价值函数 $Q_\pi(s, a)$ ，该表格与策略函数 $\pi(a \mid s)$ 相关联; 如果 $\pi$ 发生变化,表格 $Q_\pi$ 也会发生变化。因此SARSA算法与策略有关【但注意：Q学习的表格与策略无关】

Q学习与SARSA的对比

$\mathrm{Q}$ 学习的目标是学到表格 $\tilde{Q}$ , 作为最优动作价值函数 $Q^{\star}$ 的近似。因为 $Q^{\star}$ 与 $\pi$ 无关, 所以在理想情况下, 不论收集经验用的行为策略 $\pi$ 是什么, 都不影响 $\mathrm{Q}$ 学习得到的最优动作价值函数。因此, $\mathrm{Q}$ 学习属于异策略（off-policy), 允许行为策略区别于目标策略。Q 学习允许使用经验回放, 可以重复利用过时的经验。
SARSA 算法的目标是学到表格 $q$ , 作为动作价值函数 $Q_\pi$ 的近似。 $Q_\pi$ 与一个策略 $\pi$ 相对应, 用不同的策略 $\pi$ , 对应 $Q_\pi$ 就会不同。策略 $\pi$ 越好, $Q_\pi$ 的值越大。经验回放数组里的经验 $\left(s_j, a_j, r_j, s_{j+1}\right)$ 是过时的行为策略 $\pi_{\text {old }}$ 收集到的, 与当前策略 $\pi_{\text {now }}$ 及其对而不能用过时的 $\pi_{\text {old }}$ 收集到的经验。这就是为什么 SARSA 不能用经验回放的原因。

在这里插入图片描述

5.2 神经网络形式的SARSA

价值网络

价值网络：如果状态空间 $\mathcal{S}$ 是无限集, 那么我们无法用一张表格表示 $Q_\pi$ , 否则表格的行数是无穷。一种可行的方案是用一个神经网络 $\boldsymbol{w})$ 来近似 $Q_\pi(s, a)$ ; 理想情况下，
$\boldsymbol{w})=Q_\pi(s, a), \quad \forall s \in \mathcal{S}, a \in \mathcal{A} .$

这个神经网络 $\boldsymbol{w})$ 被称为价值网络（value network）, 其中的 $\boldsymbol{w}$ 表示神经网络中可训练的参数。神经网络的结构是人预先设定的（比如有多少层, 每一层的宽度是多少), 而参数 $\boldsymbol{w}$ 需要通过智能体与环境的交互来学习。

5.3 多步TD 目标

5.4 蒙特卡洛与自举

自举

自举意思是“用一个估算去更新同类的估算”，类似于“自己把自己给举起来”

6.价值学习高级技巧

经验回放可以用于异策略算法。经验回放有两个好处：打破相邻两条经验的相关性、重复利用收集的经验。
优先经验回放是对经验回放的一种改进。在做经验回放的时候，从经验回放数组中做加权随机抽样, $\mathrm{TD}$ 误差的绝对值大的经验被赋予较大的抽样概率、较小的学习率。
$\mathrm{Q}$ 学习算法会造成 $\mathrm{DQN}$ 高估真实的价值。高估的原因有两个：第一，最大化造成 $\mathrm{TD}$ 目标高估真实价值; 第二, 自举导致高估传播。高估并不是由 DQN 本身的缺陷造成的, 而是由于 $\mathrm{Q}$ 学习算法不够好。双 $\mathrm{Q}$ 学习是对 $\mathrm{Q}$ 学习算法的改进, 可以有效缓解高估。
对决网络与 $\mathrm{DQN}$ 一样, 都是对最优动作价值函数 $Q_{\star}$ 的近似; 两者的唯一区别在于神经网络结构。对决网络由两部分组成： $D\left(s, a ; \boldsymbol{w}^D\right)$ 是对最优优势函数的近似, $V\left(s ; \boldsymbol{w}^V\right)$ 是对最优状态价值函数的近似。对决网络的训练与 $\mathrm{DQN}$ 完全相同。
噪声网络是一种特殊的神经网络结构, 神经网络中的参数带有随机噪声。噪声网络可以用于 DQN 等多种深度强化学习模型。噪声网络中的噪声可以鼓励探索, 让智能体尝试不同的动作, 这有利于学到更好的策略。

6.1 经验回放

经验回放定义

经验回放（experience replay）是强化学习中一个重要的技巧，可以大幅提升强化学习的表现。经验回放的意思是把智能体与环境交互的记录（即经验）储存到一个数组里，事后反复利用这些经验训练智能体。这个数组被称为经验回放数组（replay buffer）
具体来说, 把智能体的轨迹划分成 $\left(s_t, a_t, r_t, s_{t+1}\right)$ 这样的四元组, 存入一个数组。要人为指定数组的大小 (记作 $b$ )。数组中只保留最近 $b$ 条数据; 当数组存满之后, 删掉最旧的数据。数组的大小 $b$ 是个需要调的超参数, 会影响训练的结果。通常设置 $b$ 为 $10^5 \sim 10^6$ 。

经验回放的优点

经验回放的一个好处在于打破序列的相关性。训练 DQN 的时候, 每次我们用一个四元组对 DQN 的参数做一次更新。我们希望相邻两次使用的四元组是独立的。然而当智能体收集经验的时候, 相邻两个四元组 $\left(s_t, a_t, r_t, s_{t+1}\right)$ 和 $\left(s_{t+1}, a_{t+1}, r_{t+1}, s_{t+2}\right)$ 有很强的相关性。依次使用这些强关联的四元组训练 DQN，效果往往会很差。经验回放每次从数组里随机抽取一个四元组, 用来对 DQN 参数做一次更新。这样随机抽到的四元组都是独六的, 消除了相关性。
经验回放的另一个好处是重复利用收集到的经验，而不是用一次就丢弃，这样可以用更少的样本数量达到同样的表现。

注意：暂时还不太理解的点
在阅读文献的时候请注意“样本数量”（sample complexity）与“更新次数”两者的区别。样本数量是指智能体从环境中获取的奖励r的数量。而一次更新的意思是从经验回放数组里取出一个或多个四元组，用它对参数w 做一次更新。通常来说，样本数量更重要，因为在实际应用中收集经验比较困难。比如，在机器人的应用中，需要在现实世界做一次实验才能收集到一条经验，花费的时间和金钱远大于做一次计算。相对而言，做更新的次数不是那么重要，更新次数只会影响训练时的计算量而已。

经验回放局限性

经验回放只适用于异策略；不适用于同策略，比如SRASA，REINFORCE，A2C

优先经验回放

优先经验回放（prioritized experience replay）是一种特殊的经验回放方法, 它比普通的经验回放效果更好：既能让收敛更快，也能让收敛时的平均回报更高。经验回放数组里有 $b$ 个四元组, 普通经验回放每次均匀抽样得到一个样本——即四元组 $\left(s_j, a_j, r_j, s_{j+1}\right)$ ,用它来更新 DQN 的参数。优先经验回放给每个四元组一个权重, 然后根据权重做非均匀随机抽样。如果 DQN 对 $\left(s_j, a_j\right)$ 的价值判断不准确, 即 $Q\left(s_j, a_j ; \boldsymbol{w}\right)$ 离 $Q^*\left(s_j, a_j\right)$ 较远,则四元组 $\left(s_j, a_j, r_j, s_{j+1}\right)$ 应当有较高的权重。

6.2 高估问题及解决方法

$\mathrm{Q}$ 学习算法有一个缺陷：用 $\mathrm{Q}$ 学习训练出的 $\mathrm{DQN}$ 会高估真实的价值, 而且高估通常是非均匀的。这个缺陷导致 DQN 的表现很差。高估问题并不是 DQN 模型的缺陷, 而是 $\mathrm{Q}$ 学习算法的缺陷。 $\mathrm{Q}$ 学习产生高估的原因有两个：第一, 自举导致偏差的传播; 第二, 最大化导致 TD 目标高估真实价值。为了缓解高估, 需要从导致高估的两个原因下手, 改进 $\mathrm{Q}$ 学习算法。双 $\mathrm{Q}$ 学习算法是一种有效的改进, 可以大幅缓解高估及其危害。

自举导致高估

最大化导致高估

高估的危害

如果高估是均匀的，则高估没有危害；如果高估非均匀，就会有危害

想要避免DQN 的高估，要么切断自举，要么避免最大化造成高估注意，高估并不是DQN 自身的属性，高估纯粹是算法造成的。想要避免高估，就要用更好的算法替代原始的Q学习算法。

使用目标网络

使用目标网络训练DQN可以缓解DQN高估

双Q学习算法

造成 $\mathrm{DQN}$ 高估的原因不是 $\mathrm{DQN}$ 模型本身的缺陷, 而是 $\mathrm{Q}$ 学习算法有不足之处: 第一, 自举造成偏差的传播; 第二, 最大化造成 $\mathrm{TD}$ 目标的高估。在 $\mathrm{Q}$ 学习算法中使用目标网络, 可以缓解自举造成的偏差, 但是无助于缓解最大化造成的高估。本小节介绍双 $\mathbf{Q}$ 学习（double $\mathrm{Q}$ learning）算法, 它在目标网络的基础上做改进, 缓解最大化造成的高估。
注：本小节介绍的双 $\mathrm{Q}$ 学习算法在文献中被称作 double $\mathrm{DQN}$ , 缩写 DDQN。本书不采用 $\mathrm{DDQN}$ 这名字, 因为这个名字比较误导。双 $\mathrm{Q}$ 学习（即所谓的 DDQN）只是一种 $\mathbf{T D}$ 算法而已, 它可以把 DQN 训练得更好。双 $\mathrm{Q}$ 学习并没有用区别于 $\mathrm{DQN}$ 的模型。本节中的模型只有一个, 就是 $\mathrm{DQN}$ 。我们讨论的只是训练 $\mathrm{DQN}$ 的三种 $\mathrm{TD}$ 算法：原始的 $\mathrm{Q}$ 学习、用目标网络的 $\mathrm{Q}$ 学习、双 $\mathrm{Q}$ 学习。

下面是三种算法的对比：
在这里插入图片描述

注1：如果使用原始 $\mathrm{Q}$ 学习算法, 自举和最大化都会造成严重高估。在实践中, 应当尽量使用双 $\mathrm{Q}$ 学习, 它是三种算法中最好的。

注2：如果使用 SARSA 算法（比如在 actor-critic 中), 自举的问题依然存在, 但是不存在最大化造成高估这一问题。对于 SARSA, 只需要解决自举问题, 所以应当将目标网络应用到 SARSA。

6.3 对决网络

对决网络 (dueling network)是对 DQN 的神经网络结构的改进。它的基本想法是将最优动作价值 $Q^{\star}$ 分解成最优状态价值 $V_{\star}$ 加最优优势 $D_{\star}$ 。对决网络的训练与 $\mathrm{DQN}$ 完全相同, 可以用 $\mathrm{Q}$ 学习算法或者双 $\mathrm{Q}$ 学习算法。

6.4 噪声网络

噪声网络（noisy net）是一种非常简单的方法, 可以显著提高 DQN 的表现。噪声网络的应用不局限于 DQN, 它可以用于几乎所有的深度强化学习方法。

噪声网络的原理

把神经网络中的参数 $\boldsymbol{w}$ 替换成 $\mu+\sigma \circ \xi$ 。此处的 $\mu, \sigma, \xi$ 的形状与 $\boldsymbol{w}$ 完全相同。 $\mu 、 \sigma$ 分别表示均值和标准差, 它们是神经网络的参数, 需要从经验中学习。 $\boldsymbol{\xi}$ 是随机噪声, 它的每个元素独立从标准正态分布 $\mathcal{N}(0,1)$ 中随机抽取。符号“o”表示逐项乘积。如果 $\boldsymbol{w}$ 是向量, 那么有
$w_i=\mu_i+\sigma_i \cdot \xi_i .$

如果 $w$ 是矩阵, 那么有
$w_{i j}=\mu_{i j}+\sigma_{i j} \cdot \xi_{i j} .$

噪声网络的意思是参数 $\boldsymbol{w}$ 的每个元素 $w_i$ 从均值为 $\mu_i$ 、标准差为 $\sigma_i$ 的正态分布中抽取。
在这里插入图片描述

第三部分：策略学习

7.策略梯度方法

可以用神经网络 $\pi(a \mid s ; \boldsymbol{\theta})$ 近似策略函数。策略学习的目标函数是 $J(\boldsymbol{\theta})=\mathbb{E}_S\left[V_\pi(S)\right]$ ,它的值越大, 意味着策略越好。
策略梯度指的是 $J(\boldsymbol{\theta})$ 关于策略了参数 $\boldsymbol{\theta}$ 的梯度。策略梯度定理将策略梯度表示成
$\boldsymbol{g}(s, a ; \boldsymbol{\theta}) \triangleq Q_\pi(s, a) \cdot \nabla_{\boldsymbol{\theta}} \ln \pi(a \mid s ; \boldsymbol{\theta})$ 的期望。
REINFORCE 算法用实际观测的回报 $u$ 近似 $Q_\pi(s, a)$ , 从而把 $\boldsymbol{g}(s, a ; \boldsymbol{\theta})$ 近似成:
$\tilde{\boldsymbol{g}}(s, a ; \boldsymbol{\theta}) \triangleq u \cdot \nabla_{\boldsymbol{\theta}} \ln \pi(a \mid s ; \boldsymbol{\theta}) .$ REINFORCE 算法做梯度上升更新策略网络： $\boldsymbol{\theta} \leftarrow \boldsymbol{\theta}+\beta \cdot \tilde{\boldsymbol{g}}(s, a ; \boldsymbol{\theta})$ 。
Actor-critic 用价值网络 $\boldsymbol{w})$ 近似 $Q_\pi(s, a)$ , 从而把 $\boldsymbol{g}(s, a ; \boldsymbol{\theta})$ 近似成:
$\widehat{\boldsymbol{g}}(s, a ; \boldsymbol{\theta}) \triangleq q(s, a ; \boldsymbol{w}) \cdot \nabla_{\boldsymbol{\theta}} \ln \pi(a \mid s ; \boldsymbol{\theta}) .$
Actor-critic 用 SARSA 算法更新价值网络 $q$ , 用梯度上升更新策略网络: $\boldsymbol{\theta} \leftarrow \boldsymbol{\theta}+\beta$ . $\widehat{\boldsymbol{g}}(s, a ; \boldsymbol{\theta})$

策略网络→策略学习描述成最大化问题→策略梯度→用REINFORCE和Actor-critic训练策略网络→本章介绍的REINFORCE 和actor-critic 只是帮助大家理解算法而已，实际效果并不好

7.1 策略网络

策略学习

策略学习的意思是通过求解一个优化问题，学出最优策略函数或它的近似函数（比如策略网络）

策略网络

用神经网络 $\pi(a \mid s ; \boldsymbol{\theta})$ 近似策略函数 $\pi(a \mid s)$ 。神经网络 $\pi(a \mid s ; \boldsymbol{\theta})$ 被称为策略网络。 $\boldsymbol{\theta}$ 表示神经网络的参数; 一开始随机初始化 $\theta$ , 随后利用收集的状态、动作、奖励去更新 $\boldsymbol{\theta}$ 。
在这里插入图片描述

7.2 策略学习的目标函数

回报 $U_t$ 是从 $t$ 时刻开始的所有奖励之和。 $U_t$ 依赖于 $t$ 时刻开始的所有状态和动作:
$S_t, A_t, S_{t+1}, A_{t+1}, \quad S_{t+2}, A_{t+2}, \cdots$
在 $t$ 时刻, $U_t$ 是随机变量, 它的不确定性来自于未来未知的状态和动作。
动作价值函数的定义是:
$Q_\pi\left(s_t, a_t\right)=\mathbb{E}\left[U_t \mid S_t=s_t, A_t=a_t\right] .$ 条件期望把 $t$ 时刻状态 $s_t$ 和动作 $a_t$ 看做已知观测值, 把 $t + 1$ 时刻后的状态和动作看做未知变量, 并消除这些变量。
状态价值函数的定义：
$V_\pi\left(s_t\right)=\mathbb{E}_{A_t \sim \pi\left(\cdot \mid s_t ; \theta\right)}\left[Q_\pi\left(s_t, A_t\right)\right] .$ 状态价值既依赖于当前状态 $s_t$ , 也依赖于策略网络 $\pi$ 的参数 $\boldsymbol{\theta}$ 。
- 当前状态 $s_t$ 越好, 则 $V_\pi\left(s_t\right)$ 越大, 即回报 $U_t$ 的期望越大。例如, 在超级玛丽游戏中, 如果玛丽奥已经接近终点（也就是说当前状态 $s_t$ 很好）, 那么回报的期望就会很大。
- 策略 $\pi$ 越好（即参数 $\boldsymbol{\theta}$ 越好）, 那么 $V_\pi\left(s_t\right)$ 也会越大。例如, 从同一起点出发打游戏, 高手（好的策略）的期望回报远高于初学者（差的策略）。
如果一个策略很好, 那么状态价值 $V_\pi(S)$ 的均值应当很大。因此我们定义目标函数：
$J(\boldsymbol{\theta})=\mathbb{E}_S\left[V_\pi(S)\right]$
这个目标函数排除掉了状态 $S$ 的因素, 只依赖于策略网络 $\pi$ 的参数 $\boldsymbol{\theta}$ ; 策略越好, 则 $J(\theta)$ 越大。所以策略学习可以描述为这样一个优化问题:
$\max _{\boldsymbol{\theta}} J(\boldsymbol{\theta})$
希望通过对策略网络参数 $\boldsymbol{\theta}$ 的更新, 使得目标函数 $J(\boldsymbol{\theta})$ 越来越大, 也就意味着策略网络越来越强。想要求解最大化问题, 显然可以用梯度上升更新 $\boldsymbol{\theta}$ , 使得 $J(\boldsymbol{\theta})$ 增大。设当前策略网络的参数为 $\theta_{\text {now }}$ , 做梯度上升更新参数, 得到新的参数 $\theta_{\text {new }}$ :
$\boldsymbol{\theta}_{\text {new }} \leftarrow \boldsymbol{\theta}_{\text {now }}+\beta \cdot \nabla_{\boldsymbol{\theta}} J\left(\boldsymbol{\theta}_{\text {now }}\right) .$
此处的 $\beta$ 是学习率, 需要手动调整。上面的公式就是训练策略网络的基本思路, 其中的梯度
$\left.\nabla_{\boldsymbol{\theta}} J\left(\boldsymbol{\theta}_{\text {now }}\right) \triangleq \frac{\partial J(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}}\right|_{\boldsymbol{\theta}=\theta_{\text {now }}}$
被称作策略梯度。策略梯度可以写成下面定理中的期望形式。之后的算法推导都要基于这个定理, 并对其中的期望做近似。

7.3 策略梯度定理的证明

证明过程见书

近似策略梯度

策略学习可以描述为一个最大化问题：

$\max _\theta\left\{J(\theta) \triangleq \mathbb{E}_S\left[V_\pi(S)\right]\right\} .$

求解这个最大化问题最简单的算法就是梯度上升:
$\boldsymbol{\theta} \leftarrow \boldsymbol{\theta}+\beta \cdot \nabla_{\boldsymbol{\theta}} J(\theta) .$

其中的 $\nabla_\theta J(\theta)$ 是策略梯度。

策略梯度表示为:
$\nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta})=\mathbb{E}_S\left[\mathbb{E}_{A \sim \pi(\cdot \mid S ; \boldsymbol{\theta})}\left[Q_\pi(S, A) \cdot \nabla_{\boldsymbol{\theta}} \ln \pi(A \mid S ; \boldsymbol{\theta})\right]\right] .$

解析求出这个期望是不可能的, 因为我们并不知道状态 $S$ 概率密度函数; 即使我们知道 $S$ 的概率密度函数, 能够通过连加或者定积分求出期望, 我们也不愿意这样做, 因为连加或者定积分的计算量非常大。

回忆一下, 第 2 章介绍了期望的蒙特卡洛近似方法, 可以将这种方法用于近似策略梯度。每次从环境中观测到一个状态 $s$ , 它相当于随机变量 $S$ 的观测值。然后再根据当前的策略网络（策略网络的参数必须是最新的）随机抽样得出一个动作：
$\sim \pi(\cdot \mid s ; \theta) .$

计算随机梯度:
$\boldsymbol{g}(s, a ; \boldsymbol{\theta}) \triangleq Q_\pi(s, a) \cdot \nabla_{\boldsymbol{\theta}} \ln \pi(a \mid s ; \boldsymbol{\theta}) .$

很显然, $\boldsymbol{g}(s, a ; \boldsymbol{\theta})$ 是策略梯度 $\nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta})$ 的无偏估计:
$\nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta})=\mathbb{E}_S\left[\mathbb{E}_{A \sim \pi(\cdot \mid S ; \boldsymbol{\theta})}[\boldsymbol{g}(S, A ; \boldsymbol{\theta})]\right]$
应用上述结论, 我们可以做随机梯度上升来更新 $\boldsymbol{\theta}$ , 使得目标函数 $J(\theta)$ 逐渐增长:
$\boldsymbol{\theta} \leftarrow \boldsymbol{\theta}+\beta \cdot \boldsymbol{g}(s, a ; \boldsymbol{\theta}) .$

此处的 $\beta$ 是学习率, 需要手动调整。但是这种方法仍然不可行, 我们计算不出 $\boldsymbol{g}(s, a ; \boldsymbol{\theta})$ ,原因在于我们不知道动作价值函数 $Q_\pi(s, a)$ 。在后面两节中, 我们用两种方法对 $Q_\pi(s, a)$ 做近似: 一种方法是 REINFORCE, 用实际观测的回报 $u$ 近似 $Q_\pi(s, a)$ ; 另一种方法是 actor-critic, 用神经网络 $\boldsymbol{w})$ 近似 $Q_\pi(s, a)$ 。

7.4 REINFORCE

策略梯度 $\nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta})$ 的无偏估计是下面的随机梯度:
$\boldsymbol{g}(s, a ; \boldsymbol{\theta}) \triangleq Q_\pi(s, a) \cdot \nabla_{\boldsymbol{\theta}} \ln \pi(a \mid s ; \boldsymbol{\theta}) .$

但是其中的动作价值函数 $Q_\pi$ 是未知的，导致无法直接计算 $\boldsymbol{g}(s, a ; \boldsymbol{\theta})$ 。REINFORCE 进一步对 $Q_\pi$ 做蒙特卡洛近似, 把它替换成回报 $u$ 。

REINFORCE简化推导

设一局游戏有 $n$ 步, 一局中的奖励记作 $R_1, \cdots, R_n$ 。 $t$ 时刻的折扣回报定义为:
$U_t=\sum_{k=t}^n \gamma^{k-t} \cdot R_k$

而动作价值定义为 $U_t$ 的条件期望:
$Q_\pi\left(s_t, a_t\right)=\mathbb{E}\left[U_t \mid S_t=s_t, A_t=a_t\right] .$

我们可以用蒙特卡洛近似上面的条件期望。从时刻 $t$ 开始, 智能体完成一局游戏, 观测到全部奖励 $r_t, \cdots, r_n$ , 然后可以计算出 $u_t=\sum_{k=t}^n \gamma^{k-t} \cdot r_k$ 。因为 $u_t$ 是随机变量 $U_t$ 的观测值, 所以 $u_t$ 是上面公式中期望的蒙特卡洛近似(不太理解)。在实践中, 可以用 $u_t$ 代替 $Q_\pi\left(s_t, a_t\right)$ ,那么随机梯度 $\boldsymbol{g}\left(s_t, a_t ; \boldsymbol{\theta}\right)$ 可以近似成
$\tilde{\boldsymbol{g}}\left(s_t, a_t ; \boldsymbol{\theta}\right)=u_t \cdot \nabla_{\boldsymbol{\theta}} \ln \pi\left(a_t \mid s_t ; \boldsymbol{\theta}\right) .$
$\tilde{\boldsymbol{g}}$ 是 $\boldsymbol{g}$ 的无偏估计，所以也是策略梯度 $\nabla_{\boldsymbol{\theta}} J(\boldsymbol{\theta})$ 的无偏估计； $\tilde{\boldsymbol{g}}$ 也是一种随机梯度。
我们可以用反向传播计算出 $\ln \pi$ 关于 $\boldsymbol{\theta}$ 的梯度, 而且可以实际观测到 $u_t$ , 于是我们可以实际计算出随机梯度 $\tilde{\boldsymbol{g}}$ 的值。有了随机梯度的值, 我们可以做随机梯度上升更新策略网络参数 $\theta$ :
$\boldsymbol{\theta} \leftarrow \boldsymbol{\theta}+\beta \cdot \tilde{\boldsymbol{g}}\left(s_t, a_t ; \boldsymbol{\theta}\right) .$

根据上述推导, 我们得到了训练策略网络的算法, 即 REINFORCE。

训练流程

当前策略网络的参数是 $\theta_{\text {now。 }}$ REINFORCE 执行下面的步骤对策略网络的参数做一次更新：

用策略网络 $\theta_{\text {now }}$ 控制智能体从头开始玩一局游戏 从开始玩到结束？, 得到一条轨迹 (trajectory):
$s_1, a_1, r_1, \quad s_2, a_2, r_2, \quad \cdots, \quad s_n, a_n, r_n .$
计算所有的回报:
$u_t=\sum_{k=t}^n \gamma^{k-t} \cdot r_k, \quad \forall t=1, \cdots, n$
用 $\left\{\left(s_t, a_t\right)\right\}_{t=1}^n$ 作为数据, 做反向传播计算:
$\nabla_{\boldsymbol{\theta}} \ln \pi\left(a_t \mid s_t ; \boldsymbol{\theta}_{\text {now }}\right), \quad \forall t=1, \cdots, n .$
做随机梯度上升更新策略网络参数:
$\boldsymbol{\theta}_{\text {new }} \leftarrow \boldsymbol{\theta}_{\text {now }}+\beta \cdot \sum_{t=1}^n \gamma^{t-1} \cdot \underbrace{u_t \cdot \nabla_{\boldsymbol{\theta}} \ln \pi\left(a_t \mid s_t ; \boldsymbol{\theta}_{\text {now }}\right)}_{\text {即随机梯度 } \tilde{\boldsymbol{g}}\left(s_t, a_t ; \theta_{\text {now }}\right)} .$

注：在算法最后一步中, 随机梯度前面乘以系数 $\gamma^{t-1}$ 。读者可能会好奇, 为什么需要这个系数呢? 原因是这样的: 前面 REINFORCE 的推导是简化的, 而非严谨的数学推导; 按照我们简化的推导, 不应该乘以系数 $\gamma^{t-1}$ 。下一小节做严格的数学推导, 得出的 REINFORCE 算法需要系数 $\gamma^{t-1}$ 。读者只要知道这个事实就行了, 不必读懂下一小节的数学推导。
注：REINFORCE 属于同策略（on-policy）, 要求行为策略（behavior policy）与目标策略 (target policy)相同, 两者都必须是策略网络 $\pi\left(a \mid s ; \boldsymbol{\theta}_{\text {now }}\right)$ , 其中 $\boldsymbol{\theta}_{\text {now }}$ 是策略网络当前的参数。所以经验回放不适用于 REINFORCE。

7.5 Actor-Critic

本节的actor-critic用神经网络近似 $Q_{\pi}$

价值网络

Actor-critic 方法用一个神经网络近似动作价值函数 $Q_\pi(s, a)$ , 这个神经网络叫做“价值网络”, 记为 $\boldsymbol{w})$ , 其中的 $\boldsymbol{w}$ 表示神经网络中可训练的参数。价值网络的输入是状态 $s$ , 输出是每个动作的价值。

虽然价值网络 $\boldsymbol{w})$ 与之前学的 DQN 有相同的结构, 但是两者的意义不同, 训练算法也不同。

价值网络是对动作价值函数 $Q_\pi(s, a)$ 的近似。而 DQN 则是对最优动作价值函数 $Q_{\star}(s, a)$ 的近似。
对价值网络的训练使用的是 SARSA 算法, 它属于同策略, 不能用经验回放。对 DQN 的训练使用的是 $\mathrm{Q}$ 学习算法, 它属于异策略, 可以用经验回放。

算法推导

训练策略网络

训练策略网络的基本想法是用策略梯度 $\nabla_\theta J(\theta)$ 的近似来更新参数 $\boldsymbol{\theta}$ 。之前我们推导过策略梯度的无偏估计：
$\boldsymbol{g}(s, a ; \boldsymbol{\theta}) \triangleq Q_\pi(s, a) \cdot \nabla_{\boldsymbol{\theta}} \ln \pi(a \mid s ; \boldsymbol{\theta}) .$
价值网络 $\boldsymbol{w})$ 是对动作价值函数 $Q_\pi(s, a)$ 的近似，所以把上面公式中的 $Q_\pi$ 替换成价值网络，得到近似策略梯度：
$\widehat{\boldsymbol{g}}(s, a ; \boldsymbol{\theta}) \triangleq \underbrace{q(s, a ; \boldsymbol{w})}_{\text {评委的打分 }} \cdot \nabla_{\boldsymbol{\theta}} \ln \pi(a \mid s ; \boldsymbol{\theta}) .$
最后做梯度上升更新策略网络的参数:
$\boldsymbol{\theta} \leftarrow \boldsymbol{\theta}+\beta \cdot \widehat{\boldsymbol{g}}(s, a ; \boldsymbol{\theta}) .$
训练价值网络——SARSA

训练过程

下面概括 actor-critic 训练流程。设当前策略网络参数是 $\theta_{\text {now }}$ , 价值网络参数是 $w_{\text {now。 }}$ 执行下面的步骤, 将参数更新成 $\theta_{\text {new }}$ 和 $w_{\text {new }}$ :

观测到当前状态 $s_t$ , 根据策略网络做决策: $a_t \sim \pi\left(\cdot \mid s_t ; \boldsymbol{\theta}_{\text {now }}\right)$ , 并让智能体执行动作 $a_t$ 。
从环境中观测到奖励 $r_t$ 和新的状态 $s_{t+1}$ 。
根据策略网络做决策: $\tilde{a}_{t+1} \sim \pi\left(\cdot \mid s_{t+1} ; \boldsymbol{\theta}_{\text {now }}\right)$ , 但不让智能体执行动作 $\tilde{a}_{t+1}$ 。
让价值网络打分:
$\widehat{q}_t=q\left(s_t, a_t ; \boldsymbol{w}_{\text {now }}\right) \quad \text { 和 } \quad \widehat{q}_{t+1}=q\left(s_{t+1}, \tilde{a}_{t+1} ; \boldsymbol{w}_{\text {now }}\right)$
计算 TD 目标和 TD 误差:
$\widehat{y}_t=r_t+\gamma \cdot \widehat{q}_{t+1} \quad \text { 和 } \quad \delta_t=\widehat{q}_t-\widehat{y}_t \text {. }$
更新价值网络：
$\boldsymbol{w}_{\text {new }} \leftarrow \boldsymbol{w}_{\text {now }}-\alpha \cdot \delta_t \cdot \nabla_{\boldsymbol{w}} q\left(s_t, a_t ; \boldsymbol{w}_{\text {now }}\right) .$
更新策略网络:
$\boldsymbol{\theta}_{\text {new }} \leftarrow \boldsymbol{\theta}_{\text {now }}+\beta \cdot \widehat{q}_t \cdot \nabla_{\boldsymbol{\theta}} \ln \pi\left(a_t \mid s_t ; \boldsymbol{\theta}_{\text {now }}\right) .$

用目标网络改进训练

第 6.2 节讨论了 $Q$ 学习中的自举及其危害, 以及用目标网络（target network）缓解自举造成的偏差。SARSA 算法中也存在自举一一即用价值网络自己的估值 $\widehat{q}_{t+1}$ 去更新价值网络自己; 我们同样可以用目标网络计算 TD 目标, 从而缓解偏差。把目标网络记作 $q\left(s, a ; \boldsymbol{w}^{-}\right)$ , 它的结构与价值网络相同, 但是参数不同。使用目标网络计算 TD 目标, 那么 actor-critic 的训练就变成了:

观测到当前状态 $s_t$ , 根据策略网络做决策: $a_t \sim \pi\left(\cdot \mid s_t ; \boldsymbol{\theta}_{\text {now }}\right)$ , 并让智能体执行动作 $a_t$ 。
从环境中观测到奖励 $r_t$ 和新的状态 $s_{t+1}$ 。
根据策略网络做决策: $\tilde{a}_{t+1} \sim \pi\left(\cdot \mid s_{t+1} ; \boldsymbol{\theta}_{\text {now }}\right)$ , 但是不让智能体执行动作 $\tilde{a}_{t+1}$ 。
让价值网络给 $\left(s_t, a_t\right)$ 打分:
$\widehat{q}_t=q\left(s_t, a_t ; \boldsymbol{w}_{\text {now }}\right) .$
让目标网络给 $\left(s_{t+1}, \tilde{a}_{t+1}\right)$ 打分:
$\widetilde{q}_{t+1}=q\left(s_{t+1}, \tilde{a}_{t+1} ; \boldsymbol{w}_{\text {now }}^{-}\right)$
计算 TD 目标和 TD 误差:
$\widehat{y}_t^{-}=r_t+\gamma \cdot \widehat{q}_{t+1}^{-} \quad \text { 和 } \quad \delta_t=\widehat{q_t}-\widehat{y}_t^{-} \text {. }$
更新价值网络：
$\boldsymbol{w}_{\text {new }} \leftarrow \boldsymbol{w}_{\text {now }}-\alpha \cdot \delta_t \cdot \nabla_w q\left(s_t, a_t ; \boldsymbol{w}_{\text {now }}\right)$
更新策略网络:
$\boldsymbol{\theta}_{\text {new }} \leftarrow \boldsymbol{\theta}_{\text {now }}+\beta \cdot \widehat{q}_t \cdot \nabla_{\boldsymbol{\theta}} \ln \pi\left(a_t \mid s_t ; \boldsymbol{\theta}_{\text {now }}\right) .$
设 $\tau \in(0,1)$ 是需要手动调整的超参数。做加权平均更新目标网络的参数:
$\boldsymbol{w}_{\text {new }}^{-} \leftarrow \tau \cdot \boldsymbol{w}_{\text {new }}+(1-\tau) \cdot \boldsymbol{w}_{\text {now }}^{-} .$

8.带基线的策略梯度方法

上一章推导出策略梯度, 并介绍了两种策略梯度方法，REINFORCE 和 actor-critic。虽然上一章的方法在理论上是正确的，但是在实践中效果并不理想。本章介绍的带基线的策略梯度（policy gradient with baseline）可以大幅提升策略梯度方法的表现。使用基线 (baseline) 之后, REINFORCE 变成 REINFORCE with baseline, actor-critic 变成 advantage actor-critic (A2C)。|

在策略梯度中加入基线 (baseline) 可以降低方差, 显著提升实验效果。实践中常用 $b=V_\pi(s)$ 作为基线。
可以用基线来改进 REINFORCE 算法。价值网络 $\boldsymbol{w})$ 近似状态价值函数 $V_\pi(s)$ ,把 $\boldsymbol{w})$ 作为基线。用策略梯度上升来更新策略网络 $\pi(a \mid s ; \boldsymbol{\theta})$ 。用蒙特卡洛（而非自举）来更新价值网络 $\boldsymbol{w})$ 。
可以用基线来改进 actor-critic, 得到的方法叫做 advantage actor-critic (A2C), 它也有一个策略网络 $\pi(a \mid s ; \boldsymbol{\theta})$ 和一个价值网络 $\boldsymbol{\theta})$ 。用策略梯度上升来更新策略网络, 用 $\mathrm{TD}$ 算法来更新价值网络。

9.策略学习高级技巧

本章介绍策略学习的高级技巧

置信域方法指的是一大类数值优化算法, 通常用于求解非凸问题。对于一个最大化问题，算法重复两个步骤一一做近似、最大化一一直到算法收玫。
置信域策略优化 (TRPO) 是一种置信域算法, 它的目标是最大化目标函数 $J(\theta)=$ $\mathbb{E}_S\left[V_\pi(S)\right]$ 。与策略梯度算法相比, TRPO 的优势在于更好的稳定性、用更少的样本达到收敛。
策略学习中常用熵正则这种技巧, 即鼓励策略网络输出的概率分布有较大的熵。熵越大, 概率分布越均匀; 摘越小, 概率质量越集中在少数动作上。

10.连续控制

本书前面章节的内容全部都是离散控制, 即动作空间是一个离散的集合, 比如超级玛丽游戏中的动作空间 $\mathcal{A}=\{$ 左, 右, 上 $\}$ 就是个离散集合。本章的内容是连续控制, 即动作空间是个连续集合, 比如汽车的转向 $\mathcal{A}=\left[-40^{\circ}, 40^{\circ}\right]$ 就是连续集合。如果把连续动作空间做离散化, 那么离散控制的方法就能直接解决连续控制问题; 我们在第10.1节讨论连续集合的离散化。然而更好的办法是直接用连续控制方法, 而非离散化之后借用离散控制方法。本章介绍两种连续控制方法：第10.2节介绍确定策略网络, 第10.5节介绍随机策略网络。

离散控制问题的动作空间 $\mathcal{A}$ 是个有限的离散集，连续控制问题的动作空间 $\mathcal{A}$ 是个连续集。如果想将 DQN 等离散控制方法应用到连续控制问题, 可以对连续动作空间做离散化, 但这只适用于自由度较小的问题。
可以用确定策略网络 $\boldsymbol{a}=\boldsymbol{\mu}(s ; \boldsymbol{\theta})$ 做连续控制。网络的输入是状态 $s$ , 输出是动作 $a, a$ 是向量, 大小等于问题的自由度。
确定策略梯度（DPG）借助价值网络 $\boldsymbol{w})$ 训练确定策略网络。DPG 属于异策略, 用行为策略收集经验, 做经验回放更新策略网络和价值网络。
DPG 与 DQN 有很多相似之处, 而且它们的训练都存在高估等问题。TD3 使用几种技巧改进 $\mathrm{DPG}$ : 截断双 $\mathrm{Q}$ 学习、往动作中加噪声、降低更新策略网络和目标网络的频率。
可以用随机高斯策略做连续控制。用两个神经网络分别近似高斯分布的均值和方差对数, 并用策略梯度更新两个神经网络的参数。

11.对状态的不完全观测

在很多应用中, 智能体只能部分观测到当前环境的状态, 这会给决策造成困难。本章内容分三节, 分别介绍不完全观测问题、循环神经网络（RNN）、用 RNN 策略网络解决不完全观测问题。

在很多强化学习的应用中, 智能体无法完整观测到环境当前的状态 $s_t$ 。我们把观测记作 $o_t$ , 以区别完整的状态。仅仅基于当前观测 $o_t$ 做决策, 效果会不理想。
一种合理的解决方案是记忆过去的状态, 基于历史上全部的观测 $o_1, \cdots, o_t$ 做决策。常用循环神经网络（RNN）做为策略函数, 做出的决策依赖于历史上全部的观测。

12.模仿学习

模仿学习（imitation learning）不是强化学习, 而是强化学习的一种替代品。模仿学习与强化学习有相同的目的: 两者的目的都是学习策略网络, 从而控制智能体。模仿学习与强化学习有不同的原理：模仿学习向人类专家学习, 目标是让策略网络做出的决策与人类专家相同; 而强化学习利用环境反馈的奖励改进策略, 目标是让累计奖励（即回报）最大化。

本章内容分三节, 分别介绍三种常见的模仿学习方法：行为克隆 (behavior cloning)、逆向强化学习 (inverse reinforcement learning)、生成判别模仿学习 (GAIL)。行为克隆不需要让智能体与环境交互, 因此学习的“成本”很低。而逆向强化学习、生成判别模仿学习则需要让智能体与环境交互。

模仿学习起到与强化学习相同的作用, 但模仿学习不是强化学习。模仿学习从专家的动作中学习策略, 而强化学习从奖励中学习策略。
行为克隆是最简单的模仿学习, 其本质是分类或回归。行为克隆可以完全线下训练,无需与环境交互, 因此训练的代价很小。行为克隆存在错误累加的缺点, 实践中效果不如强化学习。
强化学习利用奖励学习策略, 而逆向强化学习（IRL）从策略中反推奖励函数。IRL 适用于不知道奖励函数的控制问题，比如无人驾驶。对于这种问题，可以先用 IRL 从人类专家的行为中学习奖励函数, 再利用奖励函数做强化学习; 这种方法被称作学徒学习。
生成判别模仿学习 (GAIL) 借用 GAN 的思想, 使用一个生成器和一个判别器。生成器是策略函数, 学习的目标是让生成的轨迹与人类专家的行为相似, 使得判别器无法区分。

第四部分：多智能体强化学习

13.并行计算

机器学习的实践中普遍使用并行计算, 利用大量的计算资源（比如很多块 GPU）缩短训练所需的时间, 用几个小时就能完成原本需要很多天才能完成的训练。深度强化学习自然也不例外。可以用很多处理器同时收集经验、计算梯度, 让原本需要很长时间的训练在较短的时间内完成。第 13.1 以并行梯度下降为例讲解并行计算基础知识。第 13.2 介绍异步并行梯度下降算法。第 13.3 介绍两种异步强化学习算法。

并行计算用多个处理器、多台机器加速计算, 使得计算所需的钟表时间减少。使用并行计算, 每块处理器承担的计算量会减小, 有利于减小钟表时间。
常用加速比作为评价并行算法的指标。理想情况下, 处理器数量增加 $m$ 倍, 加速比就是 $m$ 。然而并行计算还有通信、同步等代价, 加速比通常小于 $m$ 。减小通信时间、同步时间是设计并行算法的关键。
可以用 MapReduce 在集群上做并行计算。MapReduce 属于 client-server 架构, 需要做同步。
同步算法每一轮更新模型之前, 要求所有节点都完成计算。这会造成空闲和等待,影响整体的效率。而异步算法无需等待, 因此效率更高。在机器学习的实践中, 异步并行算法比同步并行算法所需的钟表时间更短。
本章讲解了异步并行的双 $\mathrm{Q}$ 学习算法与 $\mathrm{A} 3 \mathrm{C}$ 算法。两种算法都是让 worker 端并行计算梯度, 在服务器端用梯度更新神经网络参数。

目录

第一部分：基础知识

1.机器学习基础

2.蒙特卡洛估计

3.强化学习基础知识

3.1 马尔科夫决策过程

马尔可夫决策过程（Markov decision process，MDP）

智能体

环境

状态

状态空间

动作

动作空间

奖励

状态转移

状态转移概率

3.2 策略

策略定义

3.3 随机性的来源

随机性的两个来源

马尔科夫性质(无后效性)

轨迹

3.4 回报与折扣汇报

回报

折扣回报

回报中的随机性

3.5 价值函数

动作-价值函数

第二部分：价值学习

4.DQN与Q学习

4.1 DQN

4.2 时间差分(TD)算法

4.3 用TD算法训练DQN

4.4 Q学习算法

4.5 同策略(On-policy) 与异策略(Off-policy)

行为策略

目标策略

同策略

异策略

5.SARSA算法

5.1 表格形式的SARSA

SARSA表格形式

Q学习与SARSA的对比

5.2 神经网络形式的SARSA

价值网络

5.3 多步TD 目标

5.4 蒙特卡洛与自举

自举

6.价值学习高级技巧

6.1 经验回放

经验回放定义

经验回放的优点

经验回放局限性

优先经验回放

6.2 高估问题及解决方法

自举导致高估

最大化导致高估

高估的危害

使用目标网络

双Q学习算法

6.3 对决网络

6.4 噪声网络

噪声网络的原理

第三部分：策略学习

7.策略梯度方法

7.1 策略网络

策略学习

策略网络

7.2 策略学习的目标函数

7.3 策略梯度定理的证明

近似策略梯度

7.4 REINFORCE

REINFORCE简化推导

训练流程

7.5 Actor-Critic

价值网络

算法推导

训练过程

用目标网络改进训练

8.带基线的策略梯度方法