当前位置：首页 > news >正文

动手学强化学习第 11 章 TRPO 算法(TRPOContinuous) 训练代码

news 2026/4/7 4:52:25

基于 Hands-on-RL/第11章-TRPO算法.ipynb at main · boyu-ai/Hands-on-RL · GitHub

理论 TRPO 算法

修改了警告和报错

运行环境

Debian GNU/Linux 12
Python 3.9.19
torch 2.0.1
gym 0.26.2

运行代码

TRPOContinuous.py

#!/usr/bin/env pythonimport torch
import numpy as np
import gym
import matplotlib.pyplot as plt
import torch.nn.functional as F
import rl_utils
import copyclass ValueNet(torch.nn.Module):def __init__(self, state_dim, hidden_dim):super(ValueNet, self).__init__()self.fc1 = torch.nn.Linear(state_dim, hidden_dim)self.fc2 = torch.nn.Linear(hidden_dim, 1)def forward(self, x):x = F.relu(self.fc1(x))return self.fc2(x)class PolicyNetContinuous(torch.nn.Module):def __init__(self, state_dim, hidden_dim, action_dim):super(PolicyNetContinuous, self).__init__()self.fc1 = torch.nn.Linear(state_dim, hidden_dim)self.fc_mu = torch.nn.Linear(hidden_dim, action_dim)self.fc_std = torch.nn.Linear(hidden_dim, action_dim)def forward(self, x):x = F.relu(self.fc1(x))mu = 2.0 * torch.tanh(self.fc_mu(x))std = F.softplus(self.fc_std(x))return mu, std  # 高斯分布的均值和标准差class TRPOContinuous:""" 处理连续动作的TRPO算法 """def __init__(self, hidden_dim, state_space, action_space, lmbda,kl_constraint, alpha, critic_lr, gamma, device):state_dim = state_space.shape[0]action_dim = action_space.shape[0]self.actor = PolicyNetContinuous(state_dim, hidden_dim,action_dim).to(device)self.critic = ValueNet(state_dim, hidden_dim).to(device)self.critic_optimizer = torch.optim.Adam(self.critic.parameters(),lr=critic_lr)self.gamma = gammaself.lmbda = lmbdaself.kl_constraint = kl_constraintself.alpha = alphaself.device = devicedef take_action(self, state):state = torch.tensor(np.array([state]), dtype=torch.float).to(self.device)mu, std = self.actor(state)action_dist = torch.distributions.Normal(mu, std)action = action_dist.sample()return [action.item()]def hessian_matrix_vector_product(self,states,old_action_dists,vector,damping=0.1):mu, std = self.actor(states)new_action_dists = torch.distributions.Normal(mu, std)kl = torch.mean(torch.distributions.kl.kl_divergence(old_action_dists,new_action_dists))kl_grad = torch.autograd.grad(kl,self.actor.parameters(),create_graph=True)kl_grad_vector = torch.cat([grad.view(-1) for grad in kl_grad])kl_grad_vector_product = torch.dot(kl_grad_vector, vector)grad2 = torch.autograd.grad(kl_grad_vector_product,self.actor.parameters())grad2_vector = torch.cat([grad.contiguous().view(-1) for grad in grad2])return grad2_vector + damping * vectordef conjugate_gradient(self, grad, states, old_action_dists):x = torch.zeros_like(grad)r = grad.clone()p = grad.clone()rdotr = torch.dot(r, r)for i in range(10):Hp = self.hessian_matrix_vector_product(states, old_action_dists,p)alpha = rdotr / torch.dot(p, Hp)x += alpha * pr -= alpha * Hpnew_rdotr = torch.dot(r, r)if new_rdotr < 1e-10:breakbeta = new_rdotr / rdotrp = r + beta * prdotr = new_rdotrreturn xdef compute_surrogate_obj(self, states, actions, advantage, old_log_probs,actor):mu, std = actor(states)action_dists = torch.distributions.Normal(mu, std)log_probs = action_dists.log_prob(actions)ratio = torch.exp(log_probs - old_log_probs)return torch.mean(ratio * advantage)def line_search(self, states, actions, advantage, old_log_probs,old_action_dists, max_vec):old_para = torch.nn.utils.convert_parameters.parameters_to_vector(self.actor.parameters())old_obj = self.compute_surrogate_obj(states, actions, advantage,old_log_probs, self.actor)for i in range(15):coef = self.alpha ** inew_para = old_para + coef * max_vecnew_actor = copy.deepcopy(self.actor)torch.nn.utils.convert_parameters.vector_to_parameters(new_para, new_actor.parameters())mu, std = new_actor(states)new_action_dists = torch.distributions.Normal(mu, std)kl_div = torch.mean(torch.distributions.kl.kl_divergence(old_action_dists,new_action_dists))new_obj = self.compute_surrogate_obj(states, actions, advantage,old_log_probs, new_actor)if new_obj > old_obj and kl_div < self.kl_constraint:return new_parareturn old_paradef policy_learn(self, states, actions, old_action_dists, old_log_probs,advantage):surrogate_obj = self.compute_surrogate_obj(states, actions, advantage,old_log_probs, self.actor)grads = torch.autograd.grad(surrogate_obj, self.actor.parameters())obj_grad = torch.cat([grad.view(-1) for grad in grads]).detach()descent_direction = self.conjugate_gradient(obj_grad, states,old_action_dists)Hd = self.hessian_matrix_vector_product(states, old_action_dists,descent_direction)max_coef = torch.sqrt(2 * self.kl_constraint /(torch.dot(descent_direction, Hd) + 1e-8))new_para = self.line_search(states, actions, advantage, old_log_probs,old_action_dists,descent_direction * max_coef)torch.nn.utils.convert_parameters.vector_to_parameters(new_para, self.actor.parameters())def update(self, transition_dict):states = torch.tensor(np.array(transition_dict['states']),dtype=torch.float).to(self.device)actions = torch.tensor(transition_dict['actions'],dtype=torch.float).view(-1, 1).to(self.device)rewards = torch.tensor(transition_dict['rewards'],dtype=torch.float).view(-1, 1).to(self.device)next_states = torch.tensor(np.array(transition_dict['next_states']),dtype=torch.float).to(self.device)dones = torch.tensor(transition_dict['dones'],dtype=torch.float).view(-1, 1).to(self.device)rewards = (rewards + 8.0) / 8.0  # 对奖励进行修改,方便训练td_target = rewards + self.gamma * self.critic(next_states) * (1 -dones)td_delta = td_target - self.critic(states)advantage = rl_utils.compute_advantage(self.gamma, self.lmbda,td_delta.cpu()).to(self.device)mu, std = self.actor(states)old_action_dists = torch.distributions.Normal(mu.detach(),std.detach())old_log_probs = old_action_dists.log_prob(actions)critic_loss = torch.mean(F.mse_loss(self.critic(states), td_target.detach()))self.critic_optimizer.zero_grad()critic_loss.backward()self.critic_optimizer.step()self.policy_learn(states, actions, old_action_dists, old_log_probs,advantage)num_episodes = 2000
hidden_dim = 128
gamma = 0.9
lmbda = 0.9
critic_lr = 1e-2
kl_constraint = 0.00005
alpha = 0.5
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")env_name = 'Pendulum-v1'
env = gym.make(env_name)
env.reset(seed=0)
torch.manual_seed(0)
agent = TRPOContinuous(hidden_dim, env.observation_space, env.action_space,lmbda, kl_constraint, alpha, critic_lr, gamma, device)
return_list = rl_utils.train_on_policy_agent(env, agent, num_episodes)episodes_list = list(range(len(return_list)))
plt.plot(episodes_list, return_list)
plt.xlabel('Episodes')
plt.ylabel('Returns')
plt.title('TRPO on {}'.format(env_name))
plt.show()mv_return = rl_utils.moving_average(return_list, 9)
plt.plot(episodes_list, mv_return)
plt.xlabel('Episodes')
plt.ylabel('Returns')
plt.title('TRPO on {}'.format(env_name))
plt.show()

rl_utils.py 参考

动手学强化学习第 11 章 TRPO 算法训练代码-CSDN博客

动手学强化学习第 11 章 TRPO 算法(TRPOContinuous) 训练代码

基于 Hands-on-RL/第11章-TRPO算法.ipynb at main boyu-ai/Hands-on-RL GitHub 理论 TRPO 算法修改了警告和报错运行环境 Debian GNU/Linux 12 Python 3.9.19 torch 2.0.1 gym 0.26.2 运行代码 TRPOContinuous.py #!/usr/bin/env pythonimport torch import numpy a…...

编程日记 2024/8/1 14:45:46

数量关系模块

三年后指的不是现在选A注意单位注意单位换算 A 正方形减去扇形 256-X5y 那么小李拿的一定是末尾是1或者是6，所以小李拿的是26，那么y46，那么小王或者小周拿的是92，所以选择三个数之和等于92的，所以选择D 分数百分数 …...

编程日记 2024/8/1 14:44:43

滑模面、趋近律设计过程详解(滑模控制)

目录 1. 确定系统的状态变量和目标2. 定义滑模面3. 选择滑模面的参数4. 设计控制律5. 验证滑模面设计6. 总结设计滑模面（Sliding Surface）是滑模控制（Sliding Mode Control，SMC）中的关键步骤。滑模控制是一种鲁棒控制…...

编程日记 2024/8/1 14:43:42

SQL Server 端口配置

目录默认端口更改端口示例：更改 TCP 端口示例：验证端口设置远程连接测试示例：使用 telnet 测试连接配置防火墙示例：Windows 防火墙设置远程连接测试示例：使用 telnet 测试连接默认端口 TCP/IP: …...

编程日记 2024/8/1 14:42:40

同一窗口还是新窗口打开链接更利于SEO优化

💝💝💝欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐：「storm…...

编程日记 2024/8/1 14:41:39

kafka 安装

docker安装kafka(KRaft 模式) KRaft模式不再对Zookeeper依赖。 docker run -d --name kafka-kraft \-p 9092:9092 -p 9093:9093 \-e KAFKA_PROCESS_ROLESbroker,controller \-e KAFKA_NODE_ID1 \-e KAFKA_CONTROLLER_QUORUM_VOTERS1127.0.0.1:9093 \-e KAFKA_LISTENERSPLAINTEX…...

编程日记 2024/8/1 14:40:38

消息队列中间件 - Kafka：高效数据流处理的引擎

作者：逍遥Sean 简介：一个主修Java的Web网站\游戏服务器后端开发者主页：https://blog.csdn.net/Ureliable 觉得博主文章不错的话，可以三连支持一下~ 如有疑问和建议，请私信或评论留言！ 前言在现代大数据和…...

编程日记 2024/8/1 14:39:34

el-table表格动态合并相同数据单元格(可指定列+自定义合并)

el-table表格动态合并相同数据单元格(可指定列自定义合并)_el-table 合并单元格动态-CSDN博客 vue2elementUI表格实现实现多列动态合并_element table动态合并列-CSDN博客...

编程日记 2024/8/1 14:38:32

复习Nginx

1.关于Nginx Nginx的关键特性 1.支持高并发 2.内存资源消耗低 3.高扩展性（模块化设计） 4.高可用性（master-worker） Nginx运行架构注意默认情况下，Nginx会创建和服务器cpu核心数量相等的worker进程 worker进程之间…...

编程日记 2024/8/1 14:37:29

nvm：Node.js 版本管理工具

nvm（Node Version Manager）是一个用于管理多个 Node.js 版本的工具，它允许你在同一个系统上安装和使用不同版本的 Node.js。这对于开发者来说非常有用，特别是当不同的项目需要不同版本的 Node.js 时。以下是 nvm 的一些主要特性…...

编程日记 2024/8/1 14:36:28

springboot校园商店配送系统-计算机毕业设计源码68448

摘要本文详细阐述了基于Spring Boot框架的校园商店配送系统的设计与实现过程。该系统针对校园内的用户需求，整合了用户注册与登录、商品浏览与购买、订单管理、配送追踪、用户反馈收集以及后台管理等功能，为校园内的普通用户、商家、配送员和管理员提供…...

编程日记 2024/8/1 14:35:27

【Redis 初阶】客户端（C++ 使用样例列表）

一、编写 helloworld 需要先使用 redis-plus-plus 连接一下 Redis 服务器，再使用 ping 命令检测连通性。 1、Makefile Redis 库最多可以支持到 C17 版本。（如果是用 Centos，需要注意 gcc/g 的版本，看是否支持 C17。不支持的话&a…...

编程日记 2024/8/1 14:34:26

【STM32】STM32单片机入门

个人主页~ 这是一个新的系列，stm32单片机系列，资料都是从网上找的，主要参考江协科技还有正点原子以及csdn博客等资料，以一个一点没有接触过单片机但有一点编程基础的小白视角开始stm32单片机的学习，希望能对也没有学过…...

编程日记 2024/8/1 14:33:25

学生信息管理系统（Python+PySimpleGUI+MySQL)

吐槽一下经过一段时间学习pymysql的经历，我深刻的体会到了pymysql的不靠谱之处； 就是在使用int型传参，我写的sql语句中格式化%d了之后，我在要传入的数据传递的每一步的去强制转换了，但是他还是会报错，说我…...

编程日记 2024/8/1 14:30:21

Java8.0标准之重要特性及用法实例(十九)

简介： CSDN博客专家，专注Android/Linux系统，分享多mic语音方案、音视频、编解码等技术，与大家一起成长！ 新书发布：《Android系统多媒体进阶实战》🚀 优质专栏： Audio工程师进阶系列…...

编程日记 2024/8/1 14:29:19

Linux系统中，`buffer`和`cache` 区别

在Linux系统中，buffer和cache都是操作系统用来提高磁盘I/O性能的机制，它们通过将数据暂存于内存中来减少对磁盘的直接访问。尽管它们的目的相似，但它们在实现和用途上有所不同。 Buffer 定义：buffer主要用于存储即将被写入磁盘的…...

编程日记 2024/8/1 14:28:18

python创建进度条的两个手搓方法

# 使用\b 回删进行手搓 import sys,time for i in range(1, 101):# 这里的10代表你的进度: 一个汉字2字节print(你的进度:,str(i)\b*(i10),flushTrue,end)time.sleep(0.5) # 利用\r手搓 import sys,time for i in range(1, 101):# \r光标回到开头print("\r", end&qu…...

编程日记 2024/8/1 14:27:16

JAVA—面向对象编程基础

面向对象是java编程的套路。更符合人类思维习惯，编程更直观。面向对象有三大特征：封装，继承，多态。目录 1.理解面向对象 2.对象在计算机中的执行原理 3.类和对象的一些注意事项 4.类与对象的一些语法知识 （1&am…...

编程日记 2024/8/1 14:25:13

【计算机视觉学习之CV2图像操作实战：车道识别1】

车道识别步骤区域感兴趣高斯模糊图片灰度化边缘提取膨胀腐蚀中值滤波霍夫圆环检测直线绘制车道 import cv2 import numpy as npdef create_roi_mask(frame):height, width frame.shape[:2]# 三角形的顶点top_vertex [int(width / 2 30), int(height * 0.5 30)]bottom_l…...

编程日记 2024/8/1 14:24:11

动态之美：Laravel动态路由参数的实现艺术

动态之美：Laravel动态路由参数的实现艺术在Web开发中，路由是应用程序的神经系统，它负责将请求映射到相应的处理逻辑。Laravel框架提供了一种强大而灵活的路由系统，允许开发者定义动态路由参数，从而创建更具动态性和可…...

编程日记 2024/8/1 14:23:10

基于三维空间智能体（3D Spatial Agent）的目标连续感知与主动控制技术体系研究与应用：答辩逐字稿

各位评委老师好。我先用一句可能有点“冒犯行业”的话开场：👉 今天绝大多数视频AI系统，并不知道“人在哪里”。它们可以识别一个人是谁， 但无法持续掌握他在真实空间中的位置、路径和下一步行为。👉 所以，本…...

编程新知 2026/4/7 3:33:04

复杂问题拆解四重境界与工程实践

1. 问题拆解：从混沌到清晰的核心方法论面对复杂问题时，那种无从下手的茫然感我太熟悉了。十年前我刚入行做电子产品故障分析时，经常被各种行业客户问得哑口无言——医疗设备的EMC问题、汽车电子的信号干扰、工业控制的通信异常，每…...

编程新知 2026/4/7 2:45:26

小型团队应用：3人使用OpenClaw+SecGPT-14B协作安全审计

小型团队应用：3人使用OpenClawSecGPT-14B协作安全审计 1. 为什么我们需要协作式安全审计工具去年我们团队接手了一个金融系统的安全审计项目，三个人需要在一周内完成代码审计、漏洞扫描和报告撰写。最初我们尝试用传统方式：各自用本地工具…...

编程新知 2026/4/7 0:55:35

2025届必备的十大AI辅助写作平台解析与推荐

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 现在处于主流地位的AI论文平台数量众多且种类繁杂，这里包含着：DeepSe…...

编程新知 2026/4/6 23:24:27

在 Matplotlib 中fontweight一般怎么设置

fontweight一般怎么设置，还有其他设置吗fontweight一般怎么设置，还有其他设置吗⚖️ fontweight 的设置方法使用字符串（推荐）使用数字🎨 其他常用文本设置1. 字体基本属性2. 布局与外观属性3. 添加背景框 (bbox)&#…...

编程新知 2026/4/6 22:41:24

[具身智能-239]：OpenCV 与深度神经网络：两种计算机视觉哲学的深度对比

📊 OpenCV 与深度神经网络：两种计算机视觉哲学的深度对比这张表格精准地拆解了计算机视觉领域两大核心技术范式的底层逻辑差异，本质是 **「物理规则驱动」与「数据特征驱动」** 两种认知世界方式的碰撞。一、核心维度对比解读表格维度OpenCV …...

编程新知 2026/4/6 22:27:21

单目相机实战：用OpenCV的solvePnP实现物体位姿估计（附Python代码）

单目相机实战：用OpenCV的solvePnP实现物体位姿估计（附Python代码） 在机器人导航、增强现实和工业检测等领域，精确获取物体相对于相机的位置和姿态是关键挑战。单目相机因其成本优势和轻量化特点，成为许多视觉系统的首选…...

编程新知 2026/4/6 21:44:13

利用快马AI快速原型：十分钟搭建软件下载站首页与详情页

最近在帮朋友做一个软件下载站的原型，要求能快速上线测试用户反馈。传统开发方式从设计到编码至少需要一周，但这次我用InsCode(快马)平台的AI生成功能，十分钟就搞定了基础框架，分享下具体实现思路。首页布局设计首页需要突出展示…...

编程新知 2026/4/6 20:41:30

Qwen3.5-9B图文理解效果展示：JPEG/PNG上传问答真实作品

Qwen3.5-9B图文理解效果展示：JPEG/PNG上传问答真实作品 1. 惊艳的多模态理解能力 Qwen3.5-9B作为一款90亿参数的开源大语言模型，在多模态理解方面展现出了令人印象深刻的能力。特别是其变体Qwen3.5-9B-VL，能够同时处理文本和图像输入&#…...

编程新知 2026/4/6 20:19:18

3步解锁高效采集：让小红书素材获取效率提升80%的XHS-Downloader开源工具

3步解锁高效采集：让小红书素材获取效率提升80%的XHS-Downloader开源工具【免费下载链接】XHS-Downloader 小红书（XiaoHongShu、RedNote）链接提取/作品采集工具：提取账号发布、收藏、点赞、专辑作品链接；提取搜索结果作…...

编程新知 2026/4/6 20:01:08

相关文章：