当前位置：首页 > news >正文

【强化学习的数学原理】课程笔记--5（值函数近似，策略梯度方法）

news 2025/7/6 6:21:10

值函数近似
- 一个例子
- TD 算法的值函数近似形式
- Sarsa, Q-learning 的值函数近似形式
- Deep Q-learning
- - experience replay
策略梯度方法（Policy Gradient）
- Policy Gradient 的目标函数
- - 目标函数 1
  - 目标函数 2
  - 两种目标函数的同一性
- Policy Gradient 目标函数的梯度
- - Policy Gradient 目标函数梯度的统一形式
  - discounted case 情形下的目标函数梯度
  - undiscounted case 情形下的目标函数梯度
- 蒙特卡洛 policy gradient ( REINFORCE 算法)

系列笔记：
【强化学习的数学原理】课程笔记–1（基本概念，贝尔曼公式）
【强化学习的数学原理】课程笔记–2（贝尔曼最优公式，值迭代与策略迭代）
【强化学习的数学原理】课程笔记–3（蒙特卡洛方法）
【强化学习的数学原理】课程笔记–4（随机近似与随机梯度下降，时序差分方法）

值函数近似

回忆前面章节所介绍的各种强化学习算法，在求解 state value 和 action value 时：
$v_{\pi} = \left[ v_{\pi}(s_1), v_{\pi}(s_2), \cdots, v_{\pi}(s_n) \right]$

$q_{\pi} = \begin{bmatrix} q_{\pi}(s_1,a_1) & q_{\pi}(s_1,a_2) & \cdots & q_{\pi}(s_1,a_m) \\ q_{\pi}(s_2,a_1) & q_{\pi}(s_2,a_2) & \cdots & q_{\pi}(s_2,a_m) \\ \vdots & \vdots & \ddots & \vdots\\ q_{\pi}(s_n,a_1) & q_{\pi}(s_n,a_2) & \cdots & q_{\pi}(s_n,a_m) \end{bmatrix}$

都是对上述一维或者二维向量（后面统称 tabular）里的值一个个求解的。这样在实际使用中有一个问题，当 state space 以及 action space 非常大时，需要求解以及储存的未知量都会非常大。为了缓解这样的情况，因此提出了 值函数近似 的想法（NOTE：前面基于 tabular 的求解是精确求解，而这里的值函数是近似求解，相当于为了减少计算/存储量，牺牲了一定的精度）

一个例子

下面我们看一个例子，首先看一下用前面精确求解时得到的准确结果：

前面基于 tabular 的算法，求到的结果即是 $(b)$ 。这里为了方便理解，我们将 $(b)$ 中的 tabular 画成了图像 $(c)$ ，其中的底面对应的是 (state_index, action_index)。

那么值函数近似，即想拟合 $(c)$ 中的图像。这里的图像明显是个高阶的曲面，且阶数约高，拟合得越好（因为高阶函数总可以拟合低阶的函数），但一味追求高阶会使得计算复杂度上升，相当于又回到了 tabular 的算法（事实上，只要阶数够高，值函数是可以完全拟合 tabular 算法的）。所以下面我们进行几个实验，将阶数从低往高逐渐提升，来看值函数近似的效果：

线性值函数近似可以写成：
$\hat v(s,w) = \phi^T(s) w\qquad \phi(s),w \in \mathbb{R}^{n \times 1}$
其中 $\phi^T(s)$ 是特征函数，用于描述函数的形式，例如：是直线，平面，还是 n 阶曲面。 $w$ 则是要求的参数

图中从左到右，函数的阶分别为 1 阶，2 阶，3 阶：
$\begin{aligned} \phi^{(1)}(s) &= [1, x, y]\\ \phi^{(2)}(s) &= [1, x, y, x^2, y^2, xy]\\ \phi^{(3)}(s) &= [1, x, y, x^2, y^2, xy, x^3, y^3, x^2y, xy^2] \end{aligned}$

可以看到，阶数越高，对图像 $(c)$ 的拟合越好，这意味着值函数近似求到的策略与最优策略越接近，但同时需要求解的参数也更多了（ $d im (w)$ 分别为 3，6，10）。

泛化性

同时由于值函数近似的建模方式，在之前的 tabular-based 算法中，我们需要对每个 state 都访问足够多次，才能获得每个 state 较为准确的 state value，但值函数的建模方式，使得每个样本对于参数 $w$ 的修改，都能作用于其他的 state，所以值函数近似相比 tabular-based 算法有更强的泛化性。

特征函数 $\phi(s)$ 的选择

从上面的例子也不难发现，其实特征函数 $\phi(s)$ 的选择是非常 nontrival 的，如果特征函数的选择与实际的情况差别比较大，是很难学到好的 policy 的，这也是实际中，当问题比较复杂且先验知识比较小时，往往会选择神经网络来作为特征函数，因为神经网络具有可以拟合任何函数的效力（see：为什么神经网络可以拟合任何函数）。当然这种情况下， $\hat v(s,w)$ 就不再能写成 $\hat v(s,w) = \phi^T(s)w$ 这样线性的形式了。

TD 算法的值函数近似形式

首先给出 目标函数
$E[(v_{\pi}(S) - \hat v(S,w))^2]$
由梯度下降：
$w_{k+1} = w_k - \alpha_k \nabla_w J(w_k)$
$\begin{aligned} w_{k+1} &= w_k - \alpha_k \nabla_w J(w_k)\\ &= w_k - \alpha_k E[\nabla_w(v_{\pi}(S) - \hat v(S,w_k))^2]\\ &= w_k + 2\alpha_k E[(v_{\pi}(S) - \hat v(S,w_k))\nabla_w \hat v(S,w_k)]\\ \end{aligned}$
用 SGD 算法，则有：
$w_{t+1} = w_t + \alpha_t (v_{\pi}(s_t) - \hat v(s_t,w_t))\nabla_w \hat v(s_t,w_t)$
其中 $\alpha_t$ 等于上面的 $2\alpha_k$ 。但这里有一个问题， $v_{\pi}$ 就是我们要求的，所以它实际是未知的，跟深度学习一样，这里用样本来替代 golden truth $v_{\pi}(s_t)$ 。与上一章类似，这里根据样本来更新参数也分成两种办法：

蒙特卡洛方法：先采一条 episode $s_0, r_1, s_1, r_2,...)$ ，记 $g_t$ 为其中从 $s_t$ 出发的 trajectory 的 disounted return，那么：
$w_{t+1} = w_t + \alpha_t ( g_t - \hat v(s_t,w_t))\nabla_w \hat v(s_t,w_t)$
TD 方法：每拿到一个样本 $s_t, r_t, s_{t+1}, r_{t+1})$ ，TD target 为： $\bar{v}_t = r_{t+1} + \gamma v_t(s_{t+1})$ ，这里就用 $\bar{v}_t$ 来近似 $v_{\pi}(s_t)$ ，迭代式变成：
$w_{t+1} = w_t + \alpha_t ( r_{t+1} + \gamma \hat v_t(s_{t+1}) - \hat v(s_t,w_k))\nabla_w \hat v(s_t,w_k)$

NOTE：TD 方法中，用样本 $r_{t+1} + \gamma \hat v_t(s_{t+1})$ 代表 golden truth 会导致一个问题，即模拟的这个 golden truth 永远也不会逃出特征函数 $\phi(s)$ 的特征空间（因为样本就是当前 Policy 生成的，而当前 Policy 的 state value，是用我们假设的特征空间中的向量表示的），由于特征空间是根据先验给定的，不一定与实际情况相符，所以使用上述 TD 方法，实际求解的是：
$E((\hat v(w) - Mv_{\pi}(w))^2)$
其中 $M$ 是将所有向量投影至特征函数展开的特征空间的投影矩阵

这样当特征空间无法表达真实的 $v_{\pi}$ 时，会出现：在样本上训练误差不断减少甚至到0，但与 optimal state value 对比计算的 state value error 却在下降到一定程度后就无法再继续下降了。eg:

Sarsa, Q-learning 的值函数近似形式

Sarsa 与上述 TD 算法的区别在于，它是直接求解 action value 的，回忆 Sarsa 的 tabular 形式：
$q_{t+1}(s_t,a_t) = q_t(s_t,a_t) - \alpha_t(s_t,a_t) [q_t(s_t,a_t) - (r_{t+1} + \gamma q_t(s_{t+1},a_{t+1}))]$
其值函数形式为：
$w_{t+1} = w_t + \alpha_t [r_{t+1} + \gamma \hat q(s_{t+1},a_{t+1},w_t) - \hat q(s_t,a_t,w_t)] \nabla_w \hat q(s_t,a_t,w_t)$
算法：

#############################################################################################################
同理，Q-learning 的 tabular 形式：
$q_{t+1}(s_t,a_t) = q_t(s_t,a_t) - \alpha_t(s_t,a_t) [q_t(s_t,a_t) - (r_{t+1} + \gamma \max_{a} q_t(s_{t+1},a))]$
其值函数形式为：
$w_{t+1} = w_t + \alpha_t [r_{t+1} + \gamma \max_{a} \hat q(s_{t+1},a_{t+1},w_t) - \hat q(s_t,a_t,w_t)] \nabla_w \hat q(s_t,a_t,w_t)$
算法：

Deep Q-learning

Deep Q-learning 是将深度学习应用于上述 Q-learning 值函数形式的算法，其中有一些非常经典的实践技巧值得一看。跟 Q-learning 一样，其目标函数：
$\gamma \max_a \hat q(S',a,w) - \hat q(S,A,w))^2]$
实际也相当于在求贝尔曼最优公式，因为上式为0时，也就等价于：
$E[R_{t+1} + \gamma \max_{a} q(S_{t+1},a) |S_t = s, A_t=a ]$

但在对 $J (w)$ 求导时有一个难点： $\max_a \hat q(S',a,w)$ 首先不一定是可微的，其次要求这一项的复杂度也非常高（要求对所有可能的 action 都进行求解），最后这一项的梯度往往非常不稳定，不利于模型的收敛。因此 DQN 引入了 target network 的概念：在一定时期内，将 target nerwork 的参数 $w_T$ 固定住，认为是常值，而只对当前步的 $\hat q(S,A,w)$ 求导。然后每隔一段时间，再将 main network 中更新到的 $w$ 赋给 $w_T$ 。即
$\nabla_w J(w) = - E[(R + \gamma \max_a \hat q(S',a,w) - \hat q(S,A,w)) \nabla_w \hat q(S,A,w)]$

NOTE：实际使用中，由于深度学习一般是 mini-batch 进行训练的，因此上式的更新实际也是 mini-batch，而不是单个样本。

experience replay

DQN 中还用到了一种叫 experience replay 的采样技术，即对于样本 $s_t, a_t, r_{t+1}, s_{t+1})$ ，在使用时无需再像之前算法当中那样，根据其在 trajectory 中的顺序来取。而是可以将样本都打散之后，在样本集中随机采样一批来进行迭代更新。这样做的好处是：

打破时间相关性：强化学习环境中的连续经验通常是高度相关的，这会导致模型在训练时的高方差和低效率。通过随机采样，经验回放打破了这种时间相关性，使得训练样本更加独立同分布，从而提高了模型的训练稳定性和效率。
提高数据利用率：传统的 Q-learning 在每次更新时仅使用最新的经验，可能会浪费之前收集到的宝贵经验。而经验回放可以重用过去的经验，从而提高数据的利用率，使得训练更加高效。（由于 DQN 同时还叠加了值函数近似对样本的高效使用，因此达到同样的效果，其需要的样本量会比普通 Q-learning 小很多，eg：1000 vs 100,000）

DQN 算法：

策略梯度方法（Policy Gradient）

Policy gradient 的想法与 value approximation 类似，只是针对的对象变成了 Policy，将原来 tabular-based 的策略：
$\pi = \begin{bmatrix} \pi(a_1|s_1) & \pi(a_2|s_1) & \cdots & \pi(a_m|s_1) \\ \pi(a_1|s_2) & \pi(a_2|s_2) & \cdots & \pi(a_m|s_2) \\ \vdots & \vdots & \ddots & \vdots\\ \pi(a_1|s_n) & \pi(a_2|s_n) & \cdots & \pi(a_m|s_n) \end{bmatrix}$

改成了基于函数的：
$\pi(a|,s,\theta) = \frac{e^{h(s,a,\theta)}}{\sum_{a'} e^{h(s,a',\theta)}}$
因为策略函数通常也是直接用深度学习来表征了，因此在最后一层使用 softmax，即为给定 state 时，每个 action 的概率（softmax 经常用于表征概率分布：因为既能保证概率和为1，又能保证所有的概率值为正）。图例：

Policy Gradient 的目标函数

最优策略的目标函数 $J(\theta)$ ，依然需要借助最优化 state value / action value 来表达，但不同于之前 valued-based 的算法，这里需要一个统一的标量来表征可以使得所有的 state value / action value 都最大。

目标函数 1

优化 state value，一个自然的想法是 average state value：
$\bar v_{\pi} = \sum_{s} d(s)v_{\pi}(s)$
这里 $d (s)$ 既 state 的分布，可以分为两种情况：

$d (s)$ 与 $\pi$ 无关：例如，出现在所有的 state 的概率都相同，即 $d(s_i) = \frac{1}{|S|}$
$d (s)$ 与 $\pi$ 相关：这种情况常用的是 马尔可夫过程的平稳分布

第一章中提到过强化学习一般都假设满足马尔可夫条件：
$\begin{aligned} P(s_{t+1}|a_{t+1},s_t, ..., a_1,s_0) &= P(s_{t+1}|a_{t+1},s_t) \\ P(r_{t+1}|a_{t+1},s_t, ..., a_1,s_0) &= P(r_{t+1}|a_{t+1},s_t) \end{aligned}$
而对于一个有穷状态空间的马尔可夫链，记 $d_k$ 为走了 $k$ 步后，state 的概率分布。如果满足该马尔可夫链满足 不可约性，那么它存在唯一的平稳分布 $d$ ，满足： $\lim_{k \rightarrow \infin} d_k = d_{\pi}$ ，即系统在长时间运行后，各状态之间的转移会趋于稳定，即各状态之间会以固定的概率分布进行转移。由上式，可得： $d^T_{\pi} P_{\pi} = d^T_{\pi}$
其中 $P_{\pi}$ 是马尔可夫链的转移矩阵， $[P_{\pi}]_{i,j}$ 表示从 agent 从 $s_i$ 移动到 $s_j$ 的概率。

不可约性：即对所有的 state， $s_j$ 和 $s_j$ ，总存在一个有限的 k，使得 k 步后可以从 $s_i$ 走到 $s_j$ ，即： $[P_{\pi}^k]_{i,j} > 0$
$\quad$
不可约性要求 policy 是探索性的，因为贪婪策略无法保证从一个 state 出发，可以在有限步内到达任意另一个 state；并且要避免出现"循环"的情况，否则上述 $\rightarrow \infin$

这里 $\bar v_{\pi} = \sum_{s} d(s)v_{\pi}(s)$ 中 $d (s)$ 采用平稳分布的原因也是：在进入平稳运行后， $d(s_i)$ 更大的 state，表明有更大的概率走到这个位置，那么在计算 $\bar v_{\pi}$ 时，自然应该多给这个 state 一些权重。

等价表达式
除了上述表示， $\bar v_{\pi}$ 还有一些等价的表示方法：

$\begin{aligned} \bar v_{\pi} &= \sum_{s} d(s)v_{\pi}(s)\\ &= \sum_{s} d(s) E[R_{1} + \gamma R_{2} + \gamma^2 R_{3} + ... | S_0 = s]\\ &= \sum_{s} d(s) E[ \sum_{t=0}^{\infin} \gamma^t R_{t+1} | S_0 = s]\\ &= E[ \sum_{t=0}^{\infin} \gamma^t R_{t+1}] \end{aligned}$
$\bar v_{\pi} = d^T v_{\pi}$ 其中
$\begin{aligned} v_{\pi} &= [\cdots, v_{\pi}(s), \cdots]^T \in \mathbb{R}^{|S|}\\ d &= [\cdots, d(s), \cdots]^T \in \mathbb{R}^{|S|} \end{aligned}$

目标函数 2

另一个目标函数是 average one-step reward 为基础：
$\bar r_{\pi} = \sum_{s} d(s)r_{\pi}(s)$
其中 $d (s)$ 与上面相同，而 $r_{\pi}(s) = \sum_a \pi(a|s,\theta) r(s,a) = E_{A \sim \pi(s,\theta)}[r(s,A)|s]$

即 state s 所有可能的 action 的期望 reward

等价形式
$\bar r_{\pi}$ 有一些更常见的等价形式：

$\bar r_{\pi} = \lim_{n \rightarrow \infin} \frac{1}{n} E[\sum_{t=0}^{n-1} R_{t+1}]$
Proof: 由 Cesaro mean 定理：

Cesaro mean 定理
如果 $\{a_k\}_{n=1}^{\infin}$ 收敛且满足 $\lim_{k \rightarrow \infin} a_k = a^*$
那么 $\{\frac{1}{n} \sum_{k=1}^n a_k\}_{n=1}^{\infin}$ 也收敛，且 $\lim_{n \rightarrow \infin} \frac{1}{n} \sum_{k=1}^n a_k = a^*$

因此 $\begin{aligned} \lim_{n \rightarrow \infin} \frac{1}{n} E[\sum_{t=0}^{n-1} R_{t+1}|S_0=s_0] &= \lim_{t \rightarrow \infin} E[R_{t+1}|S_0=s_0]\\ &= \lim_{t \rightarrow \infin} \sum_{s}E[R_{t+1}|S_t=s] P^{(t)}(s|s_0) \quad (P^{(t)}(s|s_0) 指从 s_0 出发t步后走到 s 的概率)\\ &= \sum_{s} r_{\pi}(s) d(s) \quad (由于 \lim_{t \rightarrow \infin} P^{(t)}(s|s_0) = d(s))\\ &= \bar r_{\pi} \end{aligned}$
$\bar r_{\pi} = d^T r_{\pi}$
其中
$\begin{aligned} r_{\pi} &= [\cdots, r_{\pi}(s), \cdots]^T \in \mathbb{R}^{|S|}\\ d &= [\cdots, d(s), \cdots]^T \in \mathbb{R}^{|S|} \end{aligned}$

综上：

两种目标函数的同一性

可证： $\bar r_{\pi} = (1-\gamma)\bar v_{\pi}$

Proof：由贝尔曼公式 $v_{\pi} = r_{\pi} + \gamma P_{\pi} v_{\pi}$
因此
$\begin{aligned} d_{\pi}^T v_{\pi} &= d_{\pi}^T r_{\pi} + \gamma d_{\pi}^T P_{\pi} v_{\pi}\\ \Rightarrow \qquad \bar v_{\pi} &= \bar r_{\pi} + \gamma d_{\pi}^T v_{\pi} \qquad (由平稳分布的性质：d^T_{\pi} P_{\pi} = d^T_{\pi})\\ \bar v_{\pi} &= \bar r_{\pi} + \gamma \bar v_{\pi} \end{aligned}$

因此使得 $\bar v_{\pi}$ 最大的 $\theta$ 同样也会使得 $\bar r_{\pi}$ 最大，在最优化问题中，这两个统计量等价。

Policy Gradient 目标函数的梯度

首先给出各种目标函数梯度的统一形式，后面再依次证明梯度确实符合这个形式：

Policy Gradient 目标函数梯度的统一形式

$\nabla_{\theta} J(\theta) = \sum_s \eta(s) \sum_a \nabla_{\theta} \pi(a|s,\theta) q_{\pi}(s,a)$
上式的一个等价形式： $\nabla_{\theta} J(\theta) = E _{S \sim \eta, A \sim \pi(S,\theta)} [\nabla_{\theta} \ln \pi(A|S,\theta) q_{\pi}(S,A)]$

Proof：
$\begin{aligned} \nabla_{\theta} J(\theta) &= \sum_s \eta(s) \sum_a \nabla_{\theta} \pi(a|s,\theta) q_{\pi}(s,a)\\ &= E _{S \sim \eta} [\sum_a \nabla_{\theta} \pi(a|S,\theta) q_{\pi}(S,a)]\\ &= E _{S \sim \eta}[\sum_a \pi(a|S,\theta) \nabla_{\theta} \ln \pi(a|S,\theta) q_{\pi}(S,a)] \qquad (因为 \nabla_{\theta} \ln \pi(a|S,\theta) = \frac{\nabla_{\theta} \pi(a|S,\theta)}{\pi(a|S,\theta)})\\ &= E _{S \sim \eta, A \sim \pi(S,\theta)} [\nabla_{\theta} \ln \pi(A|S,\theta) q_{\pi}(S,A)] \end{aligned}$

discounted case 情形下的目标函数梯度

当 $\gamma \in (0,1)$ 时，由于 $\bar r_{\pi} = (1-\gamma)\bar v_{\pi}$ ，因此可以只求 $\nabla_{\theta} \bar v_{\pi}$ ，这里首先给出 $v_{\pi}$ 的梯度： $\nabla_{\theta} v_{\pi}(s) = \sum_{s'} \sum_{k=0}^{\infin} \gamma^k [P_{\pi}^k]_{ss'} \sum_a \nabla_{\theta} \pi(a|s',\theta) q_{\pi}(s',a)$

Proof：
$\begin{aligned} \nabla_{\theta} v_{\pi}(s) &= \nabla_{\theta}[\sum_a \pi(a|s,\theta) q_{\pi}(s,a)]\\ &= \sum_a [\nabla_{\theta}\pi(a|s,\theta) q_{\pi}(s,a) + \pi(a|s,\theta) \nabla_{\theta}q_{\pi}(s,a)]\\ \end{aligned}$
由于
$\begin{aligned} \nabla_{\theta} q_{\pi}(s,a) &= \nabla_{\theta} [\sum_r P(r|s,a)r + \gamma \sum_{s'}P(s'|s,a)v_{\pi}(s')]\\ &= 0 + \gamma \sum_{s'}P(s'|s,a) \nabla_{\theta}v_{\pi}(s') \end{aligned}$
因此：
$\begin{aligned} \nabla_{\theta} v_{\pi}(s) &= \sum_a [\nabla_{\theta}\pi(a|s,\theta) q_{\pi}(s,a) + \pi(a|s,\theta) \gamma \sum_{s'}P(s'|s,a) \nabla_{\theta}v_{\pi}(s')]\\ &= \sum_a \nabla_{\theta}\pi(a|s,\theta) q_{\pi}(s,a) + \gamma \sum_{s'}P(s'|s) \nabla_{\theta}v_{\pi}(s')\\ &= \sum_a \nabla_{\theta}\pi(a|s,\theta) q_{\pi}(s,a) + \gamma \sum_{s'} [P_{\pi}]_{ss'} \nabla_{\theta}v_{\pi}(s')\\ &= u(s) + \gamma \sum_{s'} (P_{\pi} \otimes I_m) \nabla_{\theta}v_{\pi}(s') \qquad (记 u(s) = \sum_a \nabla_{\theta}\pi(a|s,\theta) q_{\pi}(s,a)) \end{aligned}$

上式可以求解：
$\begin{aligned} \nabla_{\theta} v_{\pi}(s) &= \sum_{s'}(I_{nm} - \gamma P_{\pi} \otimes I_m)^{-1} u(s')\\ &= \sum_{s'}(I_n \otimes I_m - \gamma P_{\pi} \otimes I_m)^{-1} u(s')\\ &= \sum_{s'}[(I_n - \gamma P_{\pi})^{-1} \otimes I_m ] u(s')\\ &= \sum_{s'}[(I_n - \gamma P_{\pi})^{-1}]_{ss'} u(s')\\ &= \sum_{s'}[(I_n - \gamma P_{\pi})^{-1}]_{ss'} \sum_a \nabla_{\theta}\pi(a|s',\theta) q_{\pi}(s',a)\\ &= \sum_{s'} [I + \gamma P_{\pi} + \gamma^2 P_{\pi}^2 + \cdots]_{ss'} \sum_a \nabla_{\theta}\pi(a|s',\theta) q_{\pi}(s',a)\\ &= \sum_{s'} \sum_{k=0}^{\infin} \gamma^k [P_{\pi}^k]_{ss'} \sum_a \nabla_{\theta} \pi(a|s',\theta) q_{\pi}(s',a) \end{aligned}$

下面求解 $\bar v_{\pi}$ 的梯度，先给结论：

当 $\gamma$ 靠近 1 时，
$\begin{aligned} \nabla_{\theta} \bar r_{\pi}(s) &= (1-\gamma)\nabla_{\theta} \bar v_{\pi}(s) \\ &\approx \sum_s d_{\pi}(s) \sum_a \nabla_{\theta} \pi(a|s,\theta) q_{\pi}(s,a)\\ &= E_{S \sim d_{\pi}, A \sim \pi(S,\theta)} [\nabla_{\theta} \ln \pi(A|S,\theta) q_{\pi}(S,A)] \end{aligned}$

Proof：
$\begin{aligned} \nabla_{\theta} \bar v_{\pi}(s) &= \nabla_{\theta} [\sum_s d_{\pi}(s)v_{\pi}(s)]\\ &= \sum_s \nabla_{\theta}d_{\pi}(s)v_{\pi}(s) + \sum_s d_{\pi}(s) \nabla_{\theta} v_{\pi}(s) \end{aligned} \tag{1}$
其中
$\begin{aligned} \sum_s d_{\pi}(s) \nabla_{\theta} v_{\pi}(s) &= (d_{\pi}^T \otimes I_m) v_{\pi}(s) \\ &= (d_{\pi}^T \otimes I_m) [(I_n - \gamma P_{\pi})^{-1} \otimes I_m] u(s)\\ &= [d_{\pi}^T (I_n - \gamma P_{\pi})^{-1}] \otimes I_m u(s)\\ &= \frac{1}{1-\gamma} d_{\pi}^T \otimes I_m u(s) \qquad (因为 d_{\pi}^T(I_n - \gamma P_{\pi}) = d_{\pi}^T - \gamma d_{\pi}^T) \\ &= \frac{1}{1-\gamma} \sum_s d_{\pi}(s) \sum_a \nabla_{\theta}\pi(a|s,\theta) q_{\pi}(s,a) \end{aligned}$

当 $\gamma \rightarrow 1$ 时， $(1)$ 式中第二项占主导，第一项相对第二项可以忽略不计，因此：
$\begin{aligned} \nabla_{\theta} \bar r_{\pi}(s) &= (1-\gamma)\nabla_{\theta} \bar v_{\pi}(s) \\ &\approx \sum_s d_{\pi}(s) \sum_a \nabla_{\theta}\pi(a|s,\theta) q_{\pi}(s,a) \end{aligned}$

undiscounted case 情形下的目标函数梯度

此时 $\gamma =1$ ，可以证明，此时上述约等号变成等号，即：

$\begin{aligned} \nabla_{\theta} \bar r_{\pi}(s) &= (1-\gamma)\nabla_{\theta} \bar v_{\pi}(s) \\ &= \sum_s d_{\pi}(s) \sum_a \nabla_{\theta} \pi(a|s,\theta) q_{\pi}(s,a)\\ &= E_{S \sim d_{\pi}, A \sim \pi(S,\theta)} [\nabla_{\theta} \ln \pi(A|S,\theta) q_{\pi}(S,A)] \end{aligned}$

详细推导见强化学习的数学原理

蒙特卡洛 policy gradient ( REINFORCE 算法)

根据上述推导，Policy gradient 的迭代式是：
$\begin{aligned} \theta_{t+1} &= \theta_t + \alpha \nabla_{\theta} J(\theta_t)\\ &= \theta_t + \alpha \nabla_{\theta} E[\nabla_{\theta} \ln \pi(A|S,\theta_t) q_{\pi}(S,A)] \end{aligned}$

由于真实的 $q_{\pi}(S,A)$ 未知，所以如果是t哦那个给蒙特卡洛方法用样本来模拟，则称为 REINFORCE 算法:

$\begin{aligned} \theta_{t+1} &= \theta_t + \alpha \nabla_{\theta} \ln \pi(a_t|s_t,\theta_t) q_{\pi}(s_t,a_t)\\ &= \theta_t + \alpha \frac{\nabla_{\theta}\pi(a_t|s_t,\theta_t)}{\pi(a_t|s_t,\theta_t)} q_{\pi}(s_t,a_t)\\ &= \theta_t + \alpha \frac{q_{\pi}(s_t,a_t)}{\pi(a_t|s_t,\theta_t)} \nabla_{\theta}\pi(a_t|s_t,\theta_t)\\ &= \theta_t + \alpha \beta_t \nabla_{\theta}\pi(a_t|s_t,\theta_t) \qquad (这里记 \beta_t = \frac{q_{\pi}(s_t,a_t)}{\pi(a_t|s_t,\theta_t)}) \end{aligned}$
上述迭代式有两个结论：

当 $\beta_t \geq 0$ 时，上式是梯度上升，因此 $\pi(a_t|s_t,\theta_{t+1}) \geq \pi(a_t|s_t,\theta_t)$ ，即新的 policy 会更倾向于选择 $a_t$ ；而当 $\beta_t < 0$ 时，上式是梯度下降， $\pi(a_t|s_t,\theta_{t+1}) < \pi(a_t|s_t,\theta_t)$ ，因此新的 policy 会更不倾向于选择 $a_t$
再分析 $\beta_t$ 的构成： $\beta_t = \frac{q_{\pi}(s_t,a_t)}{\pi(a_t|s_t,\theta_t)}$ 首先 $\beta_t$ 与 $q_{\pi}(s_t,a_t)$ 成正比，因此 $q_{\pi}(s_t,a_t)$ 越大，即样本中 $a_t$ 的 action value 越大， $\beta_t$ 越大（因此新的 policy 会更倾向于选择 $a_t$ ，make sense）。但另一方面， $\beta_t$ 与 $\pi(a_t|s_t,\theta_t)$ 成反比，即当前策略选择 $a_t$ 的概率越大，那么更新后的策略反而会减少选择 $a_t$ 的概率，这是由于 Policy gradient 方法都是 on-policy 的（由于样本中的 $a_t$ 需依赖当前策略 $\pi$ ），这样的话，可以保持策略的 exploration。

如何采样
理论上来说，应该是 $\sim d_{\pi}, A\sim \pi(A|S,\theta)$ ，其中 $d_{\pi}$ 是 $\pi$ 的平稳分布（即运行很多步后的样本）， $\pi(A|S,\theta)$ 是当前的策略。但实际使用中，由于标准的做法效率比较低，实际是根据当前的 $\pi(\theta)$ 先采一个 episode，再利用这个 episode 中的数据更新一波：

Reference：
1.强化学习的数学原理

目录