当前位置：首页 > news >正文

强化学习(Reinforcement Learning)与策略梯度(Policy Gradient)

news 2025/7/15 4:36:07

写在前面：本篇博文的内容来自李宏毅机器学习课程与自己的理解，同时还参考了一些其他博客(~~懒得放链接~~)。博文的内容主要用于自己学习与记录。

1 强化学习的基本框架

强化学习(Reinforcement Learning, RL)主要由智能体(Agent/Actor)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)组成。在这些成员中，需要训练的是智能体，他会根据不同的状态产生动作。具体过程见下图，智能体由环境得到Observation(状态)，再根据Observation得到一个动作作用于环境产生一个新的环境，再根据之前的状态和动作会给出奖励(正奖励或者负奖励)。随后，智能体根据新的状态和奖励，按照一定的策略执行新的动作。智能体通过强化学习，可以知道自己在什么状态下，应该采取什么样的动作使得自身获得最大奖励。

在这里插入图片描述

2 强化学习基本步骤

2.1 步骤1：构建决策框架

对于智能体(后文都用Actor)模块，很容易想到构建一个用于分类任务的Neural Network，根据例如图像一类的输入，通过Neural Network的计算得到每个动作的概率，选最大概率的动作作为最终的动作。再根据最终的Reward进行反向传播更新权重，从而达到训练的效果。这是典型的Deep Learning(DL)做法。当然，在RL中确实是这么做的。

在这里插入图片描述

有了可训练的网络模型，就需要定义"Loss Function"用于训练。不同的是DL是为了使结果更加精准，需要尽可能的减小Loss，是一个“下山”的过程，而RL是为了尽可能的增大奖励，是一个“上山”的过程。奖励可以根据动作和状态计算，例如下图中击杀怪物后会获得一定量的分数。

在这里插入图片描述

让模型不断产生动作直到游戏结束，这就是一轮次(episode)(类似于DL中的epoch)，那么我们可以把所有的奖励累加起来。一个简单的思路是可以利用奖励和去更新Neural Network的权重。

在这里插入图片描述

定义：一次episode的奖励总和为 $R=\sum_{t=1}^{T}{r_t}$ ，总共进行 $T$ 次动作， $r_t$ 为第 $t$ 次动作 $a_T$ 产生的奖励。现在需要训练Neural Network使 $R$ 最大化，这就需要一个优化策略。

2.2 Policy Gradient详解

怎么知道这个动作好还是不好呢？可以让Actor实际的去“玩”一下游戏。假设动作 $\pi_\theta(s)$ 的参数是 $\theta$ ，就让Actor $\pi_\theta(s)$ 反复去玩这个游戏。那么经过不断“玩”，可以得到总得分为 $R_\theta$ 。就算是在同一个环境下采取相同的Action，得到的 $R_\theta$ 也会不相同，这是因为Actor具有一定的随机性。那么我们需要尽可能大的去增加总奖励的期望 $\bar R_\theta$ ，而不是某一次的结果增大。

在这里插入图片描述

定义：一次episode的所有状态、动作、奖励组成的向量叫 $\tau$ ，其代表一次episode的过程，相关公式如下：
$\tau = \{s1, a1, r1, s2, a2, r2, ..., s_T, a_T, r_T\}$

$R(\tau)=\sum_{n=1}^{N}r_n$

假设对于一个Actor，每一种过程 $\tau$ 都可能被列举到，每一种 $\tau$ 出现的概率取决于Actor的参数 $\theta$ ，定义为 $P(\tau|\theta)$ 。那么 $\bar R_\theta$ 就等于每一次episode中的得分 $R_\theta$ 与该过程 $\tau$ 出现的几率的乘积之和，见如下公式：
$\bar R_\theta=\sum_{\tau}{R(\tau)P(\tau|\theta)}\approx\frac{1}{N}\sum_{n=1}^N{R(\tau^n)}$
但 $\tau$ 的情况太复杂了，难以枚举所有情况，可以让 $\pi_\theta$ sample $N$ 次，得到 $\{\tau^1, \tau^2, ..., \tau^N\}$ 与所有的出现概率 $P(\tau|\theta)$ 。那么问题就变成了如下表达式：
$\theta^{*}=\arg \max _{\theta} \bar{R}_{\theta}, \bar{R}_{\theta}=\sum_{\tau}R(\tau)P(\tau|\theta)$
由前文中提到RL的训练过程是一个“上山”的过程，所以可以用Gradient Ascent。

2.2.1 Gradient Ascent

需要更新的权重为 $\theta$ ，梯度的方向为 $\nabla \bar R_\theta$ 。

在这里插入图片描述

根据 $\bar{R}_{\theta}=\sum_{\tau}R(\tau)P(\tau|\theta)$ ，其中 $R(\tau)$ 由于其有一定的随机性，只需要把 $\tau$ 放进去根据 $R (\cdot)$ 得到结果，可以把其看成一个完全的“黑盒子”，不用考虑其可微性质。这样考虑的具体原因是 $R(\tau)$ 本身是由环境打分得到的，环境是一个“黑盒子”。那么 $\nabla R_{\theta}$ 为：
$\nabla R_\theta = \sum_{\tau}{R(\tau)\nabla P(\tau|\theta)} = \sum_{\tau}{R(\tau)P(\tau|\theta)\frac{\nabla P(\tau|\theta)}{P(\tau|\theta)}}$
又由于：
$\frac{dlog(f(x))}{dx}=\frac{1}{f(x)} \frac{df(x)}{dx}$

$\nabla log(f(x))=\frac{\nabla f(x)}{f(x)}$

那么 $\nabla R_\theta$ 可以变为：
$\nabla R_\theta = \sum_{\tau}{R(\tau)P(\tau|\theta)\nabla log P(\tau|\theta)} \approx \frac{1}{N}\sum^{N}_{n=1}{R(\tau^n)\nabla log P(\tau^n|\theta)}$

其中 “玩” $N$ 次游戏得到 $\{\tau^1, \tau^2, ..., \tau^N\}$ ，假设 $N$ 足够大，表示概率的部分 $P(\tau|\theta)$ 就可以直接利用平均数去掉。现在的问题变成了如何计算 $\nabla log P(\tau|\theta)$ 。

我们可以把 $P(\tau|\theta)$ 展开：
$P(\tau|\theta)= p\left(s_{1}\right) p\left(a_{1} \mid s_{1}, \theta\right) p\left(r_{1}, s_{2} \mid s_{1}, a_{1}\right) p\left(a_{2} \mid s_{2}, \theta\right) p\left(r_{2}, s_{3} \mid s_{2}, a_{2}\right) \cdots =p(s_1)\prod^{T}_{t=1}{p(a_t|s_t, \theta)p(r_t, s_{t+1}|s_t, a_t)}$
其实这是一个用于描述马尔科夫决策过程的公式，其中每个状态和行动都有相应的概率分布。其中 $p(s_1)$ 与 $p(r_t, s_{t+1}|s_t, a_t)$ 跟 $\pi_\theta$ 是没关系的， $p(a_t|s_t, \theta)$ 受 $\pi_\theta$ 控制，后者的解释可以见下图。

在这里插入图片描述

那么 $logP(\tau|\theta)$ 可以变成如下：
$logP(\tau|\theta) = logp(s_1)+\sum_{t=1}^{T}logp(a_t|s_t, \theta) + logp(r_t, s_{t+1}|s_t, a_t)$
则 $\nabla log P(\tau|\theta)$ 跟 $\pi_\theta$ 不相干的项直接可以去掉了，变成如下式子：
$\nabla logP(\tau|\theta)=\sum_{t=1}^{T}\nabla logp(a_t|s_t, \theta)$
那么可以把这个式子往回带，就可以得到 $\nabla \bar R_\theta$ (注意这里的 $T $ 变成了 $T_n$ ，这是因为对于不同的 $\tau$ 产生动作序列的次数不一样，所以需要添加下标 $n $ 与不同轮次的 $\tau$ 对应)：
$\nabla \bar R_\theta \approx \frac{1}{N} \sum_{n=1}^{N}{R(\tau^n) \nabla log P(\tau^n|\theta)} = \frac{1}{N} \sum_{n=1}^{N}{R(\tau^\theta) \sum_{t=1}^{T_n}{\nabla log p(a_t^n|s_t^n, \theta)}} = \frac{1}{N} \sum_{n=1}^{N} \sum_{t=1}^{T_n}{R(\tau^\theta){\nabla log p(a_t^n|s_t^n, \theta)}}$
这个式子的含义是，假设在sample的一个 $\theta$ 里面， $s_t^n$ 这个State下采取了 $a_t^n$ 这个动作的概率，取log再计算梯度，与那一次 $\tau$ 的总奖励相乘。进一步理解，如果在某一次 $\tau^n$ 时，机器在看到状态 $s_t^n$ 时，采取了一个动作 $a_t^n$ ，然后总的奖励是正的，那么机器就会自己去增加看到这个场景下做出该行动的概率。

在这里插入图片描述

值得注意的是，如果把梯度里的 $R(\tau^n)$ 替换成 $r_t^n$ 后，也就是将第 $n$ 次 $\tau^n$ 的总奖励换成第 $n$ 次 $\tau^n$ 在 $t$ 时刻在状态 $s_t^n$ 下采取动作 $a_t^n$ 得到的奖励，那么就会丢失其他动作的期望贡献，最后训练出来的模型只会在原地开火。这里还能这么理解(个人理解)，如果换成 $r_t^n$ ，由于sample的随机性，可以不用考虑 $\frac{1}{N}\sum_{n=1}^{N}$ 这一层。那么 $\nabla \bar R_\theta$ 可以写成：
$\nabla \bar R_\theta = g(\sum_{t=1}^{T}r_t \nabla log p(a_t|s_t, \theta))$
此时的 $r_t$ 与 $a_t, s_t$ 唯一对应，那么梯度在每个时刻只关注了一个动作的奖励与概率~~，很容易陷入局部最优~~，导致训练出来的模型在某一特定环境下只会侧重一个动作。由Actor在不同连续的 $s_t$ 下产生的一系列动作是有一定的关联性的~~，类似于NLP上下文特征或者音频里的时域特征~~，所以不能只考虑某一 $a_t, s_t$ 下单独的 $r_t$ 。这就有点类似于分类任务的损失函数。

有了梯度，就可以根据Gradient Ascent更新Actor网络的权重，公式如下：
$\theta^{new} ← \theta^{old} + \eta \nabla \bar R_{\theta^{old}}$
下面我们再看看更新模型的过程，如下图，即生成一组训练数据，更新一次 $\theta$ ，值得注意的是每一组训练数据只能用一次。

在这里插入图片描述

2.2.2 如何损失函数进一步优化

假设所有的 $R(\tau^n)$ 都是正值。假设在某一个状态下，采取 $a, b, c$ 三个动作的概率如下，但 $a, c$ 的奖励更高，那么理想状态下经过训练 $a, c$ 出现的概率会增高， $b$ 出现的概率会降低。但实际上我们是sample的，假设没有采集到 $a$ 动作这种情况，那么经过训练后 $a$ 出现的概率会降低。这时，我们需要引入一个baseline，即可以对 $R(\tau^n)$ 减去一个 $b$ ，从而使奖励有好有坏，不然都是正值无法区分，通常可以将 $b$ 值设置为与 $R(\tau^n)$ 的期望接近的值，即 $E[R(\tau^n)]$ 。

在这里插入图片描述

还有很多方法能缓解这一问题，例如为不同的动作分配不同的权重，即好的动作给正分，差的动作给负分，再将 $R(\tau^n)$ 替换成所有动作的权重和，这种做法的本质就是改变了原本奖励的计算。

在这里插入图片描述

随着时间的推移，状态-动作的组合会越来越多，那么前面的组合对距离过远的组合的影响就会越来越小，可以用添加一个衰减因子 $\gamma$ ，这种方法叫Advantage function，见下图。

在这里插入图片描述

强化学习(Reinforcement Learning)与策略梯度(Policy Gradient)

写在前面：本篇博文的内容来自李宏毅机器学习课程与自己的理解，同时还参考了一些其他博客(懒得放链接)。博文的内容主要用于自己学习与记录。 1 强化学习的基本框架强化学习(Reinforcement Learning, RL)主要由智能体(Agent/Actor)、环境(Environment)、…...

编程日记 2023/10/14 12:22:20

JUC之ForkJoin并行处理框架

ForkJoin并行处理框架 Fork/Join 它可以将一个大的任务拆分成多个子任务进行并行处理，最后将子任务结果合并成最后的计算结果，并进行输出。类似于mapreduce 其实，在Java 8中引入的并行流计算，内部就是采用的ForkJoinPool来实现…...

编程日记 2023/10/14 12:21:19

【牛客面试必刷TOP101】Day8.BM33 二叉树的镜像和BM36 判断是不是平衡二叉树

作者简介：大家好，我是未央； 博客首页：未央.303 系列专栏：牛客面试必刷TOP101 每日一句：人的一生，可以有所作为的时机只有一次，那就是现在！！！&…...

编程日记 2023/10/14 12:19:17

CSS padding（填充）

CSS padding（填充）是一个简写属性，定义元素边框与元素内容之间的空间，即上下左右的内边距。 padding（填充） 当元素的 padding（填充）内边距被清除时，所释放的区域将会受到…...

编程日记 2023/10/14 12:18:17

C语言达到什么水平才能从事单片机工作

C语言达到什么水平才能从事单片机工作从事单片机工作需要具备一定的C语言编程水平。以下是几个关键要点：基本C语言知识： 掌握C语言的基本语法、数据类型、运算符、流控制语句和函数等基本概念。最近很多小伙伴找我，说想要一些C语言学习资料&…...

编程日记 2023/10/14 12:17:15

Java架构师理解SAAS和多租户

目录 1 云服务的三种模式1.1 IaaS（基础设施即服务）1.2 PaaS（平台即服务）1.3 SaaS（软件即服务）1.4 区别与联系2 SaaS的概述2.1 Saas详解2.2 应用领域与行业前景2.3 Saas与传统软件对比3 多租户SaaS平台的数据库方案3.1 多租户是什么3.2 需求分析3.3 多租户的数据库方案分析…...

编程日记 2023/10/14 12:16:14

关于Java线程池相关面试题

【更多面试资料请加微信号：suns45】 https://flowus.cn/share/f6cd2cbe-627a-435f-a6e5-1395333f92e8 【FlowUs 息流】📣suns-Java资料访问密码：【请加微信号：suns45】 ————线程相关的面试题———— 0：创建线…...

编程日记 2023/10/14 12:15:13

ExcelBDD Python指南

在Python里面支持BDD Excel BDD Tool Specification By ExcelBDD Method This tool is to get BDD test data from an excel file, its requirement specification is below The Essential of this approach is obtaining multiple sets of test data, so when combined with…...

编程日记 2023/10/14 12:14:12

基于深度学习的驾驶员疲劳监测系统的设计与实现

点击以下链接获取源码： https://download.csdn.net/download/qq_64505944/88421622?spm1001.2014.3001.5503 基于深度学习的驾驶员疲劳监测系统的设计与实现 1 绪论在21世纪，各国的经济飞速发展，人民越来越富裕，道路上的汽车也逐…...

编程日记 2023/10/14 12:13:11

B树、B+树详解

B树前言　　首先，为什么要总结B树、B树的知识呢？最近在学习数据库索引调优相关知识，数据库系统普遍采用B-/Tree作为索引结构（例如mysql的InnoDB引擎使用的B树），理解不透彻B树，则无法理解数据…...

编程日记 2023/10/14 12:11:09

使用hugging face开源库accelerate进行多GPU（单机多卡）训练卡死问题

目录问题描述及配置网上资料查找1.tqdm问题2.dataloader问题3.model(input)写法问题4.环境变量问题我的卡死问题解决方法问题描述及配置在使用hugging face开源库accelerate进行多GPU训练（单机多卡）的时候，经常出现如下报错 [E Process…...

编程日记 2023/10/14 12:10:07

IDEA 修改插件安装位置

不说假话，一定要看到最后，不然你以为我为什么要自己总结！！！ IDEA 修改插件安装位置前言步骤前言 IDEA 默认的配置文件均安装在C盘，使用时间长会生成很多文件，这些文件会占用挤兑C盘空间&…...

编程日记 2023/10/14 12:09:07

牛客网SQL160

国庆期间每类视频点赞量和转发量_牛客题霸_牛客网 select * from ( select tag,dt, sum(单日点赞量)over(partition by tag order by dt rows between 6 preceding and 0 following), max(单日转发量)over(partition by tag order by dt rows between 6 preceding and 0 follo…...

编程日记 2023/10/14 12:07:04

HDFS Java API 操作

文章目录 HDFS Java API操作零、启动hadoop一、HDFS常见类接口与方法1、hdfs 常见类与接口2、FileSystem 的常用方法二、Java 创建Hadoop项目1、创建文件夹2、打开Java IDEA1) 新建项目2) 选择Maven 三、配置环境1、添加相关依赖2、创建日志属性文件四、Java API操作1、在HDF…...

编程日记 2023/10/14 12:06:02

论文阅读之【Is GPT-4 a Good Data Analyst?（GPT-4是否是一位好的数据分析师）】

文章目录论文阅读之【Is GPT-4 a Good Data Analyst?（GPT-4是否是一位好的数据分析师）】背景：数据分析师工作范围基于GPT-4的端到端数据分析框架将GPT-4作为数据分析师的框架的流程图实验分析评估指标表1：GPT-4性能表现表2&…...

编程日记 2023/10/14 12:05:01

【数据结构】：二叉树与堆排序的实现

1.树概念及结构(了解) 1.1树的概念树是一种非线性的数据结构，它是由n（n>0）个有限结点组成一个具有层次关系的集合把它叫做树是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下的有一个特殊的结点&#…...

编程日记 2023/10/14 12:03:59

纯css手写switch

CSS 手写switch 纯css手写switchcss变量纯css手写switch 思路： switch需要的元素有：开关背景、开关按钮。点击按钮后，背景色变化，按钮颜色变化，呈现开关打开状态。利用typecheckbox，来实现switch效果(修…...

编程日记 2023/10/14 12:02:58

PyTorch 深度学习之处理多维特征的输入Multiple Dimension Input(六)

1.Multiple Dimension Logistic Regression Model 1.1 Mini-Batch (N samples) 8D->1D 8D->2D 8D->6D 1.2 Neural Network 学习能力太好也不行（学习到的是数据集中的噪声），最好的是要泛化能力，超参数尝试 Example, Arti…...

编程日记 2023/10/14 12:00:57

LeetCode【438】找到字符串中所有字母异位词

题目： 注意：下面代码勉强通过，每次都对窗口内字符排序。然后比较字符串。代码： public List<Integer> findAnagrams(String s, String p) {int start 0, end p.length() - 1;List<Integer> result new ArrayL…...

编程日记 2023/10/14 11:59:56

关于LEFT JOIN的一次理解

先看一段例子： SELECTproduct_half_spu.id AS halfSpuId,product_half_spu.half_spu_code,product_half_spu.half_spu_name,COUNT( product_sku.id ) AS skuCount,product_half_spu.create_on,product_half_spu.create_by,product_half_spu.upload_pic_date,produc…...

编程日记 2023/10/14 11:58:54

五年级数学知识边界总结思考-下册

目录一、背景二、过程1.观察物体小学五年级下册“观察物体”知识点详解：由来、作用与意义**一、知识点核心内容****二、知识点的由来：从生活实践到数学抽象****三、知识的作用：解决实际问题的工具****四、学习的意义：培养核心素养…...

编程新知 2025/6/20 13:47:44

对WWDC 2025 Keynote 内容的预测

借助我们以往对苹果公司发展路径的深入研究经验，以及大语言模型的分析能力，我们系统梳理了多年来苹果 WWDC 主题演讲的规律。在 WWDC 2025 即将揭幕之际，我们让 ChatGPT 对今年的 Keynote 内容进行了一个初步预测，聊作存档。等到明…...

编程新知 2025/7/14 2:17:57

vue3 定时器-定义全局方法 vue+ts

1.创建ts文件路径：src/utils/timer.ts 完整代码： import { onUnmounted } from vuetype TimerCallback (...args: any[]) > voidexport function useGlobalTimer() {const timers: Map<number, NodeJS.Timeout> new Map()// 创建定时器con…...

编程新知 2025/7/5 18:26:46

微服务商城-商品微服务

数据表 CREATE TABLE product (id bigint(20) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT 商品id,cateid smallint(6) UNSIGNED NOT NULL DEFAULT 0 COMMENT 类别Id,name varchar(100) NOT NULL DEFAULT COMMENT 商品名称,subtitle varchar(200) NOT NULL DEFAULT COMMENT 商…...

编程新知 2025/7/14 0:31:39

JVM暂停（Stop-The-World，STW）的原因分类及对应排查方案

JVM暂停（Stop-The-World，STW）的完整原因分类及对应排查方案，结合JVM运行机制和常见故障场景整理而成：一、GC相关暂停 1. 安全点（Safepoint）阻塞现象：JVM暂停但无GC日志，日志显示No GCs detected。原因：JVM等待所有线程进入安全点（如…...

编程新知 2025/7/9 3:40:34

AI，如何重构理解、匹配与决策？

AI 时代，我们如何理解消费？ 作者｜王彬封面｜Unplash 人们通过信息理解世界。曾几何时，PC 与移动互联网重塑了人们的购物路径：信息变得唾手可得，商品决策变得高度依赖内容。但 AI 时代的来…...

编程新知 2025/7/13 16:06:42

Spring是如何解决Bean的循环依赖：三级缓存机制

1、什么是 Bean 的循环依赖在 Spring框架中，Bean 的循环依赖是指多个 Bean 之间‌互相持有对方引用‌，形成闭环依赖关系的现象。多个 Bean 的依赖关系构成环形链路，例如：双向依赖：Bean A 依赖 Bean B，同时 Bean B 也依赖 Bean A（A↔B）。链条循环： Bean A → Bean…...

编程新知 2025/7/9 9:20:33

【电力电子】基于STM32F103C8T6单片机双极性SPWM逆变（硬件篇）

本项目是基于 STM32F103C8T6 微控制器的 SPWM（正弦脉宽调制）电源模块，能够生成可调频率和幅值的正弦波交流电源输出。该项目适用于逆变器、UPS电源、变频器等应用场景。供电电源输入电压采集上图为本设计的电源电路，图中 D1 为二极管，其目的是防止正负极电源反接， …...

编程新知 2025/7/14 4:31:41

解决：Android studio 编译后报错\app\src\main\cpp\CMakeLists.txt‘ to exist

现象： android studio报错： [CXX1409] D:\GitLab\xxxxx\app.cxx\Debug\3f3w4y1i\arm64-v8a\android_gradle_build.json : expected buildFiles file ‘D:\GitLab\xxxxx\app\src\main\cpp\CMakeLists.txt’ to exist 解决： 不要动CMakeLists.…...

编程新知 2025/7/12 13:46:11

五子棋测试用例

一.项目背景 1.1 项目简介传统棋类文化的推广五子棋是一种古老的棋类游戏，有着深厚的文化底蕴。通过将五子棋制作成网页游戏，可以让更多的人了解和接触到这一传统棋类文化。无论是国内还是国外的玩家，都可以通过网页五子棋感受到东方棋类…...

编程新知 2025/7/14 8:43:11

1 强化学习的基本框架

2 强化学习基本步骤

2.1 步骤1：构建决策框架

2.2 Policy Gradient详解

2.2.1 Gradient Ascent

2.2.2 如何损失函数进一步优化

相关文章：