当前位置：首页 > news >正文

强化学习p3-策略学习

news 文章来源：https://blog.csdn.net/qq_44641344/article/details/130581303 2025/4/21 22:36:23

Policy Network (策略网络)

我们无法知道策略函数 $\pi$ 所以要做函数近似，求一个近似的策略函数
使用策略网络 $\pi(a|s;\theta)$ 去近似策略函数 $\pi(a|s)$

在这里插入图片描述
$\sum_{a\in A} \pi(a|s;\theta) = 1$
动作空间A的大小是多少，输出向量的维度就是多少。

策略学习的目标函数

状态价值函数(State-value function)
$V_\pi(s_t)=E_A[Q_\pi(s_t,A)] = \sum_a\pi(a|s_t)\cdot Q_\pi(s_t,a)$
对A求期望，去掉A的影响
用策略网络 $\pi(a|s_t;\theta)$ 去近似策略函数 $\pi(a|s_t)$
$V_\pi(s_t;\theta)=E_A[Q_\pi(s_t,A)] = \sum_a\pi(a|s_t;\theta)\cdot Q_\pi(s_t,a)$
近似状态价值既依赖于当前状态 $s_t$ ，也依赖于策略网络 $\pi$ 的参数 $\theta$
如果一个策略很好，那么状态价值函数的近似 $V_\pi(s;\theta)$ 的均值应当很大。因此我们定义目标函数：
$J(\theta)=E_S[V_\pi(s;\theta)]$
目标函数 $J(\theta)$ 排除了状态 $S$ 的因素，只依赖于策略网络 $\pi$ 的参数 $\theta$ 。策略越好，则 $J(\theta)$ 越大，所以策略学习可以被看作是这样一个优化问题：
$\mathop{max}_{\theta}J(\theta)$
通过学习参数 $\theta$ ，使得目标函数 $J(\theta)$
越来越大，也就意味着策略网络越来越好。

使用策略梯度上升更新 $\theta$ ，使得 $J(\theta)$ 增大。
设当前策略网络的参数为 $\theta$ ,做梯度上升更新参数，得到新的参数 $\theta'$ , $\beta$ 为学习率
$\theta' =\theta+\beta \cdot \frac{\mathrm{\partial}V(s;\theta)}{\mathrm{\partial}\theta}$

策略梯度(Policy Gradient)

$\frac{\mathrm{\partial}V(s;\theta)}{\mathrm{\partial}\theta}$ 大概推导不严谨实际上 $Q_\pi$ 中也有 $\theta$ 要求导
在这里插入图片描述

使用策略梯度更新策略网络

算法：
1、在 $t$ 时刻观测到状态 $s_t$
2、根据策略网络 $\pi(.|s_t;\theta)$ 随机抽样一个动作 $a_t$
3、计算动作价值 $q_t \approx Q_\pi(s_t,a_t)$
4、计算策略网络关于参数 $\theta$ 的微分 $d\theta = \frac{\mathrm{\partial}ln\pi(a|s;\theta)}{\mathrm{\partial}\theta}|_{\theta=\theta_t}$
5、计算近似策略梯度 $g(a_t,\theta_t)=q_t,d\theta$
6、更新策略网络： $\theta_{t+1}=\theta_t+\beta \cdot g(a_t,\theta_t)$

在第 3 步中，怎么计算 $q_t$ ？
在后面章节中，我们用两种方法对 $Q_\pi(s,a)$ 做近似。
1、REINFORCE 算法
用实际观测的回报 $u$ 近似 $Q_\pi(s,a)$ 。
2、actor-critic 算法
用神经网络 $q (s, a; w)$ 近似 $Q_\pi(s,a)$ 。

所以想要近似求得 $\pi$ 函数还要近似求得 $Q_\pi$ 函数

强化学习p3-策略学习

Policy Network (策略网络)

策略学习的目标函数

策略梯度(Policy Gradient)

使用策略梯度更新策略网络

相关文章：

强化学习p3-策略学习

初学Verilog语言基础笔记整理（实例点灯代码分析）持续更新~

关于 std::condition_variable

可拓展哈希

Java 版 spring cloud 工程系统管理 +二次开发工程项目管理系统源码

通过伴随矩阵怎么求逆矩阵

巡检机器人之仪表识别系统

面试官反感的求职者（下）

可视化绘图技巧100篇分析篇（二）-生存曲线（LM曲线）（补充篇）

【100%通过率】【华为OD机试python】钟表重合时刻【 2023 Q1考试题 A卷|100分】

Java线程池编码示例

如何优化Android 4.x系统设置字体大小

Docker安装、Docker基本操作

系统集成项目管理工程师知识点总结

【游戏里的网络同步分析】马里奥制造2 多人模式

SSM框架学习-注解开发第三方bean管理

【数据结构与算法】图——邻接表与邻接矩阵

网安笔记02 密码学基础

open3d io操作

【Linux】Linux安装Redis（图文解说详细版）

setTimeout不准时，CSS精准实现计时器功能

单细胞跨模态分析综述

【零基础学机器学习 1】什么是机器学习？

ARM处理器与中断——嵌入式（驱动）软开基础（一）

WX小程序 - 2

开源之夏2023 | 欢迎申请openEuler Embedded SIG开发任务

【异常解决】vim编辑文件时提示 Found a swap file by the name “.start.sh.swp“的解决方案

「企业应用架构」应用架构概述

ePWM模块（3）

【笔试强训选择题】Day11.习题（错题）解析