当前位置：首页 > news >正文

深度强化学习之 PPO 算法

news 2025/7/16 5:27:12

深度强化学习之 PPO 算法

强化学习原理
学习策略 = 基于行为价值 & 基于行为概率
策略梯度算法：计算状态下所有行为的概率
演员 - 评论家算法：一半基于行为价值，一半基于行为概率
DQN 算法（深度Q网络）
Q-Learning（Q 值）

PPO 算法 = DQN算法 + 演员-评论家算法 + 策略梯度算法

强化学习原理

机器学习是把带标签的数据训练模型，使得预测值尽可能接近真实值。

强化学习是通过和环境交互，奖励来训练模型，使得最后获取的奖励最大期望值。

在强化学习中，机器基于环境做出行为，正确的行为能够获得奖励。以获得更多奖励为目标，实现机器与环境的最优互动。

如教狗子握手的时候，如果狗子正确握手，就能得到骨头奖励，不握手就没有。如果咬了主人一口，还会受到惩罚。

长此以往，狗子为了得到更多骨头，就能学会握手这个技能。

编程开发三要素：数据结构 + 传统算法 = 程序
机器学习三要素：数据 + 学习算法 = 模型
强化学习六要素：环境、决策模型、状态、行为、奖励、评论家

如在对弈的环境中，决策模型根据棋盘上的状态，做出落子行为，然后每盘棋的胜负获得奖励。模拟足够多棋局后，评论家就可以通过计算预测出每步棋对整盘棋的价值，为其打分。

通过不断训练，机器以赢更多局棋为目标，不断更新优化，成为一个围棋大师。

可以将学习的场景分为两类：

离散场景：机器行为的有限的，如动作类游戏。只有向上、向下、向左、向右这 4 个动作，移动也只能一格一格地走。

可以把每个状态下的所有行为列举出来，用评论家为每个行为打分，通过选择最高分的行为实现最优互动。

因为需要评估每个行为的价值，所以这种学习方法被称为基于行为价值的方法。
连续场景：机器的行为是连贯的，如赛车的方向盘转动角度可以在一定区间内任意取值，角度之间可以无限分割。

还有基于行为概率的方法，无需根据每个行为的价值来打分，可以很好地胜任连续场景。

学习策略 = 基于行为价值 & 基于行为概率

基于值的方法需要根据每个行为的价值进行打分，选出价值最高的行为。由于要穷举出所有行为，因此它只适用于离散场景。

Q-Learning 和 DQN 算法，都属于基于值的强化学习方法。

基于价值的方法无法应对连续场景。只能应用在不连续的、离散的环境下（如围棋或动作类游戏）。

对于动作集合规模庞大、动作连续的场景（如机器人控制领域），其很难学习到较好的结果。

基于价值（Value-Based）的思路是：通过计算行为的价值（Value）来训练模型。

棋盘上一共只有 361 个点位，基于值的方法可以计算出棋子落在每个点位的价值，并进行打分，帮助机器选出最优点位。

好处：基于值的方法能实时反馈。可以根据每个行为的价值进行打分，这个分数就相当于每个行为的实时反馈。但不能应用连续场景上。

而基于策略（Policy-Based）的方法并不需要考虑行为的价值，而是反应调整。

机器会在训练过程中随机抽取一些行为，与环境互动。如果行为获得了奖励，就会提高选择它的概率。以后遇到同样的状态时，有更高的概率再次做出这个行为。

相反，如果未获得奖励，或者受到了惩罚，就保持或者降低该行为的概率。

经过大量训练，最终会得出连续行为的概率分布。

基于这样的原理，一个行为能获得越多奖励，被选择的概率就越大，从而实现机器和环境的最优化互动。

好处：基于策略的方法能应用连续场景上。但不能实时反馈。

策略梯度算法：计算状态下所有行为的概率

基于策略的方法，它的原理是根据行为的概率来训练模型。

实现方式：策略梯度算法引入了一个神经网络，输入层是状态(s)，经过隐藏层的分析和计算，输出该状态下每个行为的概率.

策略梯度算法在训练过程中经常遇到一个难题：机器在与环境互动时，难以得到实时反馈，往往要在整个回合结束后才能获得奖励。

如赢一盘棋是正向奖励，输一盘棋是负面奖励，但棋局中某一颗棋子的价值很难即时评估。

想要提高学习效率，就必须想办法提供实时反馈。

有没有办法可以将基于策略在应对连续场景上的优点，和基于值在实时反馈上的优点进行结合呢？

那就是演员-评论家算法。

演员 - 评论家算法：一半基于行为价值，一半基于行为概率

演员-评论家算法就是将基于策略和基于值两个方法相结合的产物。

这个算法分成两半，一半是演员，另一半是评论家。

演员：这一半基于策略，策略梯度算法。它有一个神经网络，可以根据行为的概率，选出行为。
评论家：这一半基于价值，DQN 算法。它有一个神经网络，可以根据行为的价值进行打分。

将基于策略和基于值的方法相结合，由基于策略的策略网络在连续场景中选出行为，由基于值的价值网络给行为提供实时反馈。

策略网络就像写作业的学生，价值网络就像批改作业的老师。二者结合，反复地写作业、改作业，对比方法，找出最好的方法。

DQN 算法（深度Q网络）

DQN 算法全称深度Q网络，以 Q-Learning 算法为基础，融合了神经网络。

Q-Learning（Q 值）

Q-Learning 有一个 Q 值（评论家），一个行为的 Q 值越高，表示该行为能带来的奖励越多，越应该被选择。

Q-learning 算法需要知道每个状态下，所有行为的 Q 值。

让机器在每个状态下都能做出 Q 值最大的行为(a)。

因为计算每一个Q值，需要同时记录同一个状态下所有行为。

而当状态和行为的数量非常庞大时，储存所有数据会占用非常多的资源。

使用神经网络可以直接学习状态、行为、Q值的关系，输入状态，就能得到每个行为的Q值。

神经网络在这的功能：从存储 3 个值的排列组合，到只存储状态。

PPO 算法 = DQN算法 + 演员-评论家算法 + 策略梯度算法

PPO 算法沿用了 AC 算法的整体框架。

就是调整学习率。学习率表示向前的步长。

步长太大，尽管学得快，但会导致后期无法收敛于最优解；步长太小，则会导致学得很慢，学到黄花菜都凉了。

在训练过程中，当模型的更新幅度过大时，会调整更新幅度。

但是进行了这样的调整：机器每向前更新一步，就会与更新前作比较，如果这一步“迈”得太大，就会调整这次更新的幅度。

深度强化学习之 PPO 算法

深度强化学习之 PPO 算法强化学习原理学习策略基于行为价值 & 基于行为概率策略梯度算法：计算状态下所有行为的概率演员 - 评论家算法：一半基于行为价值，一半基于行为概率DQN 算法（深度Q网络）Q-Learning&#x…...

编程日记 2023/10/9 9:55:08

iPhone升级iOS17出现无法连接互联网的错误提示怎么办？

最新的iOS 17系统已经发布了快一个月了，很多人都已升级体验更多全新功能，但有部分用户却在升级过程中遇到一些问题：如无法验证更新，iOS17验证失败，因为您不再连接到互联网、 iPhone无法检查更新等错误问题。明明网络稳…...

编程日记 2023/10/9 9:54:06

Spring:处理@Autowired和@Value注解的BeanPostProcessor

AutowiredAnnotationBeanPostProcessor,它实现了MergedBeanDefinitionPostProcessor,因此会调用postProcessMergedBeanDefinition方法。它实现了InstantiationAwareBeanPostProcessor,因此在属性注入时会调用postProcessPropertyValues方法如果Autowired注解按类型找到了大…...

编程日记 2023/10/9 9:53:05

极坐标系下的交换积分次序

极坐标系下的交换积分次序我把极坐标系下的交换积分次序总结为动静与静动之间的转换，下面通过一个例子感受一下 ρ 1 、 ρ 1 cos ⁡ θ \rho1、\rho1\cos\theta ρ1、ρ1cosθ ∫ 0 π / 2 d θ ∫ 1 1 cos ⁡ θ f ( ρ cos ⁡ θ , ρ sin ⁡ θ ) ρ d…...

编程日记 2023/10/9 9:52:04

MySQL命令行中文乱码问题

MySQL命令行中文乱码问题： 命令行界面默认字符集是gbk，若字符集不匹配会中文乱码或无法插入中文。解决办法：执行set names gbk; 验证： 执行命令show variables like ‘char%’;查看默认字符集。创建数据库设置字符集utf8&…...

编程日记 2023/10/9 9:51:03

图论---图的遍历

在图论中，图的遍历一般有两种，分别为DFS（深度优先遍历）、BFS（广度优先遍历），以下是这两种遍历方式的模板： DFS（深度优先搜索） 代码框架： void …...

编程日记 2023/10/9 9:50:00

AM@无穷小和无穷大

文章目录 abstract本文符号说明无穷小无穷小和自变量变化过程无穷小和函数极限的关系定理👺证明无穷大无穷大不是数极限无穷大的说法证明函数极限为无穷大无穷大和无穷小见的关系定理无穷小无穷大的运算法则 abstract 无穷小和无穷大的概念和相关性质本文符号说…...

编程日记 2023/10/9 9:48:59

玄子Share- IDEA 2023 SpringBoot 热部署

玄子Share- IDEA 2023 SpringBoot 热部署修改 IDEA 部署设置 IDEA 勾选如下选项新建 SpringBoot 项目项目构建慢的将 Spring Initializr 服务器 URL 改为阿里云：https://start.aliyun.com/ 在这里直接勾选Spring Boot Devtools插件即可测试切出 IDEA 项目文…...

编程日记 2023/10/9 9:47:58

kafka集群工作机制

一、kafka在zookeeper上的元数据解释 kafka中的broker要选举Controller角色来管理整个kafka集群中的分区和副本状态。一个Topic下多个partition要选举Leader角色和客户端进行交互数据 Zookeeper客户端工具： prettyZoo。下载地址：https://github.com/vr…...

编程日记 2023/10/9 9:46:57

JVM上篇之虚拟机与java虚拟机介绍

目录虚拟机 java虚拟机简介特点作用位置整体结构类装载子系统运行时数据区 java执行引擎 Java代码执行流程 jvm架构模型基于栈式架构基于寄存器架构总结 jvm的生命周期 1.启动 2.执行 3.退出 JVM的发展历程虚拟机所谓虚拟机，指的…...

编程日记 2023/10/9 9:45:56

在公众号上怎么创建微信付费课程功能呢

微信付费课程功能是一项比较受欢迎的在线教育服务，可以帮助教育机构或个人更好地管理和销售课程资源，提高知识分享和变现的效率。下面将介绍如何创建微信付费课程功能。一、了解微信付费课程功能在创建微信付费课程功能之前，需要先了解微信…...

编程日记 2023/10/9 9:44:54

HTML5使用html2canvas转化为图片，然后再转为base64.

介绍场景：今天同事提了个协助，将HTML5文件中的元素转为图片，并且最终转为base64格式传给后端。感觉还挺有意思就记录下。（试例如下） 步骤一：引入html2canvas 的js源码 html2canvas.min.js 下载地址 htt…...

编程日记 2023/10/9 9:43:53

【C++设计模式之原型模式:创建型】分析及示例

简介原型模式（Prototype Pattern）是一种创建型设计模式，它允许通过复制已有对象来生成新的对象，而无需再次使用构造函数。描述原型模式通过复制现有对象来创建新的对象，而无需显式地调用构造函数或暴露对象的创建…...

编程日记 2023/10/9 9:42:51

TDengine OSS 与 qStudio 实现无缝协同，革新数据分析和管理方式

在数字化转型如火如荼的当下，海量爆发的时序数据处理成为转型成功的关键因素之一。为了帮助社区用户更好地进行数据分析和管理，丰富可视化解决方案的多样性，我们将开源的时序数据库（Time Series Database） TDengine OS…...

编程日记 2023/10/9 9:40:49

css的gap设置元素之间的间隔

在felx布局中可以使用gap来设置元素之间的间隔； .box{width: 800px;height: auto;border: 1px solid green;display: flex;flex-wrap: wrap;gap: 100px; } .inner{width: 200px;height: 200px;background-color: skyblue; } <div class"box"><…...

编程日记 2023/10/9 9:39:47

Flask-[项目]-搭建短网址系统：flask实现短网址系统，短网址系统，构建短网址系统

一、项目下载地址 https://gitee.com/liuhaizhang/short-url-systemhttps://gitee.com/liuhaizhang/short-url-system 二、项目搭建 2.1、基本环境安装 1、安装好mysql数据库 2、安装好redis数据 3、安装好python解释器 2.2、项目依赖安装 1、切换到python解释器环境中 …...

编程日记 2023/10/9 9:37:45

【从0开始配置前后端项目】——Docker环境配置

1. 准备一台纯净的服务器镜像：CentOS 7.9 64位 CPU & 内存：2核2G 系统盘：60GB 峰值带宽：30Mbps 流量包：600GB / 600GB 2. 安装Docker 2.1 卸载旧的版本 $ sudo yum remove docker \docker-client \docker-cl…...

编程日记 2023/10/9 9:36:40

R语言一种功能强大的数据分析、统计建模可视化免费、开源且跨平台的编程语言

R语言是一种广泛应用于数据分析、统计建模和可视化的编程语言。它由新西兰奥克兰大学的罗斯伊哈卡和罗伯特杰特曼开发，并于1993年首次发布。R语言是一个免费、开源且跨平台的语言，它在统计学和数据科学领域得到了广泛的应用。 R语言具有丰富的数据处理、…...

编程日记 2023/10/9 9:35:39

springmvc-JSR303进行服务端校验分组验证SpringMVC定义Restfull接口异常处理流程RestController异常处理

目录& 1. JSR303 2. JSR303中含有的注解 3. spring中使用JSR303进行服务端校验 3.1 导入依赖包 3.2 添加验证规则 3.3 执行校验 4. 分组验证 4.1 定义分组验证规则 4.2 验证时通过参数指定验证规则 4.3 验证信息的显示 5. SpringMVC定义Restfull接口 5.1 增加s…...

编程日记 2023/10/9 9:33:36

证件照换底色详细教程

说到证件照的底色更改，我想对大部分朋友来说是蛮头疼的事情，由于我们不论是在生活还是学习中，有时候总会要上传一些证件照，而当你手上有证件照准备上传时，发现底色不对，是不是很抓狂，现在&#…...

编程日记 2023/10/9 9:32:35

conda相比python好处

Conda 作为 Python 的环境和包管理工具，相比原生 Python 生态（如 pip 虚拟环境）有许多独特优势，尤其在多项目管理、依赖处理和跨平台兼容性等方面表现更优。以下是 Conda 的核心好处： 一、一站式环境管理&#xff1a…...

编程新知 2025/6/15 5:36:36

基于FPGA的PID算法学习———实现PID比例控制算法

基于FPGA的PID算法学习前言一、PID算法分析二、PID仿真分析1. PID代码2.PI代码3.P代码4.顶层5.测试文件6.仿真波形总结前言学习内容：参考网站： PID算法控制 PID即：Proportional（比例）、Integral（积分&…...

编程新知 2025/7/15 23:34:32

进程地址空间（比特课总结）

一、进程地址空间 1. 环境变量 1 ）⽤户级环境变量与系统级环境变量全局属性：环境变量具有全局属性，会被⼦进程继承。例如当bash启动⼦进程时，环境变量会⾃动传递给⼦进程。本地变量限制：本地变量只在当前进程(ba…...

编程新知 2025/7/9 17:20:48

K8S认证|CKS题库+答案| 11. AppArmor

目录 11. AppArmor 免费获取并激活 CKA_v1.31_模拟系统题目开始操作： 1）、切换集群 2）、切换节点 3）、切换到 apparmor 的目录 4）、执行 apparmor 策略模块 5）、修改 pod 文件 6）、…...

编程新知 2025/7/14 19:07:21

Java 8 Stream API 入门到实践详解

一、告别 for 循环！ 传统痛点： Java 8 之前，集合操作离不开冗长的 for 循环和匿名类。例如，过滤列表中的偶数： List<Integer> list Arrays.asList(1, 2, 3, 4, 5); List<Integer> evens new ArrayList…...

编程新知 2025/7/7 9:09:17

Auto-Coder使用GPT-4o完成：在用TabPFN这个模型构建一个预测未来3天涨跌的分类任务

通过akshare库，获取股票数据，并生成TabPFN这个模型可以识别、处理的格式，写一个完整的预处理示例，并构建一个预测未来 3 天股价涨跌的分类任务用TabPFN这个模型构建一个预测未来 3 天股价涨跌的分类任务，进行预测并输…...

编程新知 2025/6/26 20:21:28

五年级数学知识边界总结思考-下册

目录一、背景二、过程1.观察物体小学五年级下册“观察物体”知识点详解：由来、作用与意义**一、知识点核心内容****二、知识点的由来：从生活实践到数学抽象****三、知识的作用：解决实际问题的工具****四、学习的意义：培养核心素养…...

编程新知 2025/6/20 13:47:44

什么是库存周转？如何用进销存系统提高库存周转率？

你可能听说过这样一句话： “利润不是赚出来的，是管出来的。” 尤其是在制造业、批发零售、电商这类“货堆成山”的行业，很多企业看着销售不错，账上却没钱、利润也不见了，一翻库存才发现： 一堆卖不动的旧货…...

编程新知 2025/7/15 7:33:21

【SQL学习笔记1】增删改查+多表连接全解析（内附SQL免费在线练习工具）

可以使用Sqliteviz这个网站免费编写sql语句，它能够让用户直接在浏览器内练习SQL的语法，不需要安装任何软件。链接如下： sqliteviz 注意： 在转写SQL语法时，关键字之间有一个特定的顺序，这个顺序会影响到…...

编程新知 2025/7/14 2:15:30

linux 下常用变更-8

1、删除普通用户查询用户初始UID和GIDls -l /home/ ###家目录中查看UID cat /etc/group ###此文件查看GID删除用户1.编辑文件 /etc/passwd 找到对应的行，YW343:x:0:0::/home/YW343:/bin/bash 2.将标红的位置修改为用户对应初始UID和GID： YW3…...

编程新知 2025/7/5 18:42:22

深度强化学习之 PPO 算法

强化学习原理

学习策略 = 基于行为价值 & 基于行为概率

策略梯度算法：计算状态下所有行为的概率

演员 - 评论家算法：一半基于行为价值，一半基于行为概率

DQN 算法（深度Q网络）

Q-Learning（Q 值）

PPO 算法 = DQN算法 + 演员-评论家算法 + 策略梯度算法

相关文章：