当前位置：首页 > news >正文

强化学习笔记（5）——PPO

news 2026/2/8 12:11:02

PPO视频课程来源
首先理解采样期望的转换
请添加图片描述

变量x在p(x)分布下，函数f(x)的期望等于f(x)乘以对应出现概率p(x)的累加
经过转换后变成
x在q(x)分布下，f(x)*p(x)/q(x) 的期望。

起因是：求最大化回报的期望，所以对ceta求梯度

在这里插入图片描述

具体举例：上述公式计算的流程？如何求一条轨迹的梯度？
我理解就算是概率相乘> 一回合的回报乘以该回合梯度除以该轨迹（s,a,r,s,a…）出现概率
如何求一条轨迹的梯度？

然后PPO 推倒，对数概率连乘，等于概率累加

在这里插入图片描述

但这样有问题：用一整个回合的回报来计算梯度，会导致“未来的动作”影响过去的状态，且优势情况下，惩罚不明显
于是改成：

将优势函数转换成值函数表示，然后写出多步优势函数即推导出GAE
其实就是用走了不同步的Q（s,a）-V(s) ,然后加权

加负号将最大化期望转成loss函数更新
PPO 使用了一个重要性采样比
这个比值衡量了新策略和旧策略在选择动作 at时的相对概率

为了防止：过去参数ceta’ 和 ceta 差距不要太大，有两种衡量方式；
1：KL散度：这貌似又叫TRPO
2：clip截断防止差的太大

伪代码
在这里插入图片描述
用old策略网络做动作和环境交互，然后梯度更新，每过K个epochs将old参数复制给new

强化学习笔记（5）——PPO

PPO视频课程来源首先理解采样期望的转换变量x在p(x)分布下，函数f(x)的期望等于f(x)乘以对应出现概率p(x)的累加经过转换后变成 x在q(x)分布下，f(x)*p(x)/q(x) 的期望。起因是：求最大化回报的期望，所以对ceta求梯度具体举例…...

编程日记 2025/2/5 3:43:38

【C语言入门】解锁核心关键字的终极奥秘与实战应用（三）

目录一、auto 1.1. 作用 1.2. 特性 1.3. 代码示例二、register 2.1. 作用 2.2. 特性 2.3. 代码示例三、static 3.1. 修饰局部变量 3.2. 修饰全局变量 3.3. 修饰函数四、extern 4.1. 作用 4.2. 特性 4.3. 代码示例五、volatile 5.1. 作用 5.2. 代码示例…...

编程日记 2025/2/5 3:41:36

寒假day10

第十天：请写出以下几个数据的类型整数 a int a的地址 int* 存放a的数组b …...

编程日记 2025/2/5 3:40:35

本地部署与使用SenseVoice语音大模型简析

前言 SenseVoice 是一种语音基础模型，具有多种语音理解功能，包括自动语音识别 (ASR)、口语识别 (LID)、语音情感识别 (SER) 和音频事件检测 (AED)。本博客将指导您安装和使用 SenseVoice 模型，使其尽可能方便用户使用。 Github 仓库链接: ht…...

编程日记 2025/2/5 3:38:31

文章目录 Kafka SASL/SCRAM介绍1. SASL/SCRAM 认证机制2. SASL/SCRAM 认证工作原理2.1 SCRAM 认证原理2.1.1 密码存储和加盐2.1.2 SCRAM 认证流程 2.2 SCRAM 认证的关键算法2.3 SCRAM 密码存储2.4 SCRAM 密码管理 3. 配置和使用 Kafka SASL/SCRAM3.1 Kafka 服务器端配置3.2 创建…...

编程日记 2025/2/5 3:35:27

中间件漏洞之CVE-2024-53677

目录什么是struts？CVE-2024-53677简介影响版本复现环境搭建漏洞利用修复什么是struts？ 在早期的 Java Web 开发中，代码往往混乱不堪，难以维护和扩展。比如，一个简单的用户登录功能，可能在不同的 Java 类…...

编程日记 2025/2/5 3:33:25

pytorch基于 Transformer 预训练模型的方法实现词嵌入（tiansz/bert-base-chinese）

以下是一个完整的词嵌入（Word Embedding）示例代码，使用 modelscope 下载 tiansz/bert-base-chinese 模型，并通过 transformers 加载模型，获取中文句子的词嵌入。 from modelscope.hub.snapshot_download import snaps…...

编程日记 2025/2/5 3:32:24

Windows电脑本地部署运行DeepSeek R1大模型（基于Ollama和Chatbox）

文章目录一、环境准备二、安装Ollama2.1 访问Ollama官方网站2.2 下载适用于Windows的安装包2.3 安装Ollama安装包2.4 指定Ollama安装目录2.5 指定Ollama的大模型的存储目录三、选择DeepSeek R1模型四、下载并运行DeepSeek R1模型五、常见问题解答六、使用Chatbox进行交互6.1 …...

编程日记 2025/2/5 3:30:21

区间覆盖问题

文章目录 1. 题面2. 简单分析3. 代码解答4. TLE的2点可能 1. 题面给定 N N N个区间 [ a i , b i ] [a_i,b_i] [ai,bi] 以及一个区间 [ s , t ] [s,t] [s,t]，请你选择尽量少的区间，将指定区间完全覆盖。输出最少区间数，如果无法完全…...

编程日记 2025/2/5 3:29:18

【LLM-agent】(task2)用llama-index搭建AI Agent

note LlamaIndex 实现 Agent 需要导入 ReActAgent 和 Function Tool，循环执行：推理、行动、观察、优化推理、重复进行。可以在 arize_phoenix 中看到 agent 的具体提示词，工具被装换成了提示词ReActAgent 使得业务自动向代码转换成为可能&am…...

编程日记 2025/2/5 3:28:15

SpringAI 人工智能

随着 AI 技术的不断发展，越来越多的企业开始将 AI 模型集成到其业务系统中，从而提升系统的智能化水平、自动化程度和用户体验。在此背景下，Spring AI 作为一个企业级 AI 框架，提供了丰富的工具和机制，可以帮助开发者将…...

编程日记 2025/2/5 3:23:09

【axios二次封装】

axios二次封装安装封装使用安装 pnpm add axios封装 // 进行axios二次封装：使用请求与响应拦截器 import axios from axios import { ElMessage } from element-plus//创建axios实例 const request axios.create({baseURL: import.meta.env.VITE_APP_BASE_API,…...

编程日记 2025/2/5 3:18:01

P7497 四方喝彩 Solution

Description 给定序列 a ( a 1 , a 2 , ⋯ , a n ) a(a_1,a_2,\cdots,a_n) a(a1,a2,⋯,an)，有 m m m 个操作，分四种： add ⁡ ( l , r , v ) \operatorname{add}(l,r,v) add(l,r,v)：对于所有 i ∈ [ l , r ] i \in [l,r…...

编程日记 2025/2/5 3:17:00

深入剖析 Bitmap 数据结构：原理、应用与优化策略

深入理解 Bitmap 数据结构一、引言在计算机科学领域，数据的高效存储和快速处理一直是核心问题。随着数据量的不断增长，如何用最少的空间和最快的速度来表示和操作数据变得至关重要。Bitmap（位图）作为一种简洁而强大的数据结构…...

编程日记 2025/2/5 3:08:51

bypass hcaptcha、hcaptcha逆向

可以过steam，已支持并发，欢迎询问！ 有事危，ProfessorLuoMing...

编程日记 2025/2/5 3:07:49

WebForms DataList 深入解析

WebForms DataList 深入解析引言在Web开发领域，控件是构建用户界面（UI）的核心组件。ASP.NET WebForms框架提供了丰富的控件，其中DataList控件是一个灵活且强大的数据绑定控件。本文将深入探讨WebForms DataList控件的功能、用法以及在实际开发中的应用。 DataList控件…...

编程日记 2025/2/5 3:03:43

C# List 列表综合运用实例⁓Hypak原始数据处理编程小结

C# List 列表综合运用实例⁓Hypak原始数据处理编程小结 1、一个数组解决很麻烦引出的问题1.1、RAW 文件尾部数据如下:1.2、自定义标头 ADD 或 DEL 的数据结构如下： 2、程序 C# 源代码的编写和剖析2.1、使用 ref 关键字，通过引用将参数传递，以…...

编程日记 2025/2/5 2:59:38

【C++基础】字符串/字符读取函数解析

最近在学C以及STL，打个基础参考： c中的char[] ,char* ,string三种字符串变量转化的兼容原则 c读取字符串和字符的6种函数字符串结构首先明确三种字符串结构的兼容关系：string>char*>char [] string最灵活，内置增删查改…...

编程日记 2025/2/5 2:53:26

大模型-CLIP 详细介绍

CLIP简介 CLIP（Contrastive Language–Image Pre-training）是由OpenAI在2021年提出的一种多模态机器学习模型。它旨在通过大量的文本-图像对进行训练，从而学会理解图像内容，并能将这些内容与相应的自然语言描述相匹配。CLIP的核心…...

编程日记 2025/2/5 2:52:24

1.4 Go 数组

一、数组 1、简介数组是切片的基础数组是一个固定长度、由相同类型元素组成的集合。在 Go 语言中，数组的长度是类型的一部分，因此 [5]int 和 [10]int 是两种不同的类型。数组的大小在声明时确定，且不可更改。简单来说，数组…...

编程日记 2025/2/5 2:50:22

超短脉冲激光自聚焦效应

前言与目录强激光引起自聚焦效应机理超短脉冲激光在脆性材料内部加工时引起的自聚焦效应，这是一种非线性光学现象，主要涉及光学克尔效应和材料的非线性光学特性。自聚焦效应可以产生局部的强光场，对材料产生非线性响应，可能…...

编程新知 2026/2/4 16:43:14

Xshell远程连接Kali（默认 | 私钥）Note版

前言:xshell远程连接，私钥连接和常规默认连接任务一开启ssh服务 service ssh status //查看ssh服务状态 service ssh start //开启ssh服务 update-rc.d ssh enable //开启自启动ssh服务任务二修改配置文件 vi /etc/ssh/ssh_config //第一…...

编程新知 2026/1/28 2:18:42

【CSS position 属性】static、relative、fixed、absolute 、sticky详细介绍，多层嵌套定位示例

文章目录 ★ position 的五种类型及基本用法 ★ 一、position 属性概述二、position 的五种类型详解（初学者版） 1. static（默认值） 2. relative（相对定位） 3. absolute（绝对定位） 4. fixed（固定定位） 5. sticky（粘性定位）三、定位元素的层级关系（z-i…...

编程新知 2026/1/26 9:48:34

稳定币的深度剖析与展望

一、引言在当今数字化浪潮席卷全球的时代，加密货币作为一种新兴的金融现象，正以前所未有的速度改变着我们对传统货币和金融体系的认知。然而，加密货币市场的高度波动性却成为了其广泛应用和普及的一大障碍。在这样的背景下，稳定…...

编程新知 2025/10/24 12:31:26

【JavaSE】多线程基础学习笔记

多线程基础 -线程相关概念程序（Program） 是为完成特定任务、用某种语言编写的一组指令的集合简单的说:就是我们写的代码进程进程是指运行中的程序，比如我们使用QQ，就启动了一个进程，操作系统就会为该进程分配内存…...

编程新知 2025/9/12 0:57:34

R 语言科研绘图第 55 期 --- 网络图-聚类

在发表科研论文的过程中，科研绘图是必不可少的，一张好看的图形会是文章很大的加分项。为了便于使用，本系列文章介绍的所有绘图都已收录到了 sciRplot 项目中，获取方式： R 语言科研绘图模板 --- sciRplothttps://mp.…...

编程新知 2026/1/30 2:34:31

windows系统MySQL安装文档

概览：本文讨论了MySQL的安装、使用过程中涉及的解压、配置、初始化、注册服务、启动、修改密码、登录、退出以及卸载等相关内容，为学习者提供全面的操作指导。关键要点包括： 解压 ：下载完成后解压压缩包，得到MySQL 8.…...

编程新知 2026/2/6 10:22:29

【前端异常】JavaScript错误处理：分析 Uncaught (in promise) error

在前端开发中，JavaScript 异常是不可避免的。随着现代前端应用越来越多地使用异步操作（如 Promise、async/await 等），开发者常常会遇到 Uncaught (in promise) error 错误。这个错误是由于未正确处理 Promise 的拒绝（r…...

编程新知 2026/1/1 23:11:45

系统掌握PyTorch：图解张量、Autograd、DataLoader、nn.Module与实战模型

本文较长，建议点赞收藏，以免遗失。更多AI大模型应用开发学习视频及资料，尽在聚客AI学院。本文通过代码驱动的方式，系统讲解PyTorch核心概念和实战技巧，涵盖张量操作、自动微分、数据加载、模型构建和训练全流程&#…...

编程新知 2026/2/7 23:15:50

leetcode_69.x的平方根

题目如下 ： 看到题 ，我们最原始的想法就是暴力解决: for(long long i 0;i<INT_MAX;i){if(i*ix){return i;}else if((i*i>x)&&((i-1)*(i-1)<x)){return i-1;}}我们直接开始遍历，我们是整数的平方根，所以我们分两…...

编程新知 2026/1/29 2:41:37

起因是：求最大化回报的期望，所以对ceta求梯度

相关文章：