当前位置：首页 > news >正文

【URL】一个简单基于Gym的2D随机游走环境，用于无监督强化学习（URL）

news 2026/2/8 19:24:05

import gym
from gym import spaces
import numpy as np
import pygameclass RandomWalk2DEnv(gym.Env):def __init__(self):super(RandomWalk2DEnv, self).__init__()# 定义状态空间为2D坐标（x, y）self.x_min, self.x_max = -10, 10  # 更新尺寸为 (-10, 10)self.y_min, self.y_max = -10, 10  # 更新尺寸为 (-10, 10)self.observation_space = spaces.Box(np.array([self.x_min, self.y_min]),np.array([self.x_max, self.y_max]),dtype=np.float32)# 动作空间定义为2D向量，x和y分量的范围为(-1, 1)self.action_space = spaces.Box(np.array([-1.0, -1.0]), np.array([1.0, 1.0]), dtype=np.float32)# 初始化状态self.state = np.array([0.0, 0.0])# 初始化步长（每次移动的距离）self.step_size = 1.0# 初始化pygamepygame.init()# 设置窗口self.screen_size = (800, 800)self.screen = pygame.display.set_mode(self.screen_size)pygame.display.set_caption("Random Walk 2D")# 坐标转换，将-10到10的坐标映射到屏幕的像素坐标self.scale = 40  # 缩放因子，决定每个单位坐标对应多少像素self.origin = np.array([self.x_max, self.y_max])  # 原点在右上角# 路径记录self.path_x = []self.path_y = []def reset(self):# 将智能体重置到原点 (0, 0)self.state = np.array([0.0, 0.0])self.path_x = [self.state[0]]  # 重置路径记录self.path_y = [self.state[1]]  # 重置路径记录return self.statedef step(self, action):# 自动修正超出范围的actionaction = np.clip(action, -1.0, 1.0)# 根据动作更新坐标dx = action[0] * self.step_size  # x方向的移动dy = action[1] * self.step_size  # y方向的移动self.state[0] += dxself.state[1] += dy# 保证坐标不超出边界self.state[0] = np.clip(self.state[0], self.x_min, self.x_max)self.state[1] = np.clip(self.state[1], self.y_min, self.y_max)# 判断是否触及边缘，如果触及边缘，设置done为Truedone = Falseif self.state[0] == self.x_min or self.state[0] == self.x_max or self.state[1] == self.y_min or self.state[1] == self.y_max:done = True# 记录路径self.path_x.append(self.state[0])self.path_y.append(self.state[1])# 计算奖励：简单的奖励策略，离中心越远奖励越低distance_from_center = np.linalg.norm(self.state)reward = -distance_from_center  # 离原点越远，奖励越低return self.state, reward, done, {}def render(self, mode='human'):# 清空屏幕self.screen.fill((255, 255, 255))  # 白色背景# 绘制虚线表格self.draw_grid()# 绘制路径（红色线条）for i in range(len(self.path_x) - 1):x1 = int(self.path_x[i] * self.scale + self.screen_size[0] // 2)y1 = int(self.screen_size[1] // 2 - self.path_y[i] * self.scale)x2 = int(self.path_x[i + 1] * self.scale + self.screen_size[0] // 2)y2 = int(self.screen_size[1] // 2 - self.path_y[i + 1] * self.scale)pygame.draw.line(self.screen, (255, 0, 0), (x1, y1), (x2, y2), 2)  # 红色轨迹# 绘制起始点（蓝色圆点）start_x = int(self.path_x[0] * self.scale + self.screen_size[0] // 2)start_y = int(self.screen_size[1] // 2 - self.path_y[0] * self.scale)pygame.draw.circle(self.screen, (0, 0, 255), (start_x, start_y), 5)  # 蓝色圆点# 绘制当前智能体位置（黑色小圆点，半径为蓝色起点圆点的2/3）current_x = int(self.state[0] * self.scale + self.screen_size[0] // 2)current_y = int(self.screen_size[1] // 2 - self.state[1] * self.scale)pygame.draw.circle(self.screen, (0, 0, 0), (current_x, current_y), 3)  # 黑色圆点，半径为5的2/3# 刷新屏幕pygame.display.flip()# 处理事件，避免程序卡死for event in pygame.event.get():if event.type == pygame.QUIT:pygame.quit()exit()def draw_grid(self):""" 绘制虚线网格，中心位置为实线 """# 设置线条颜色和宽度line_color = (200, 200, 200)  # 灰色center_line_color = (0, 0, 0)  # 中心线为黑色line_width = 1dash_length = 10  # 虚线的每段长度dash_gap = 5  # 虚线的间隔# 绘制垂直线for x in range(self.x_min, self.x_max + 1):x_pos = int(x * self.scale + self.screen_size[0] // 2)for y in range(self.y_min, self.y_max + 1):y_pos = int(self.screen_size[1] // 2 - y * self.scale)# 绘制最中间的线（交叉点处）if x == 0:pygame.draw.line(self.screen, center_line_color,(x_pos, self.screen_size[1] // 2 - self.y_max * self.scale),(x_pos, self.screen_size[1] // 2 + self.y_max * self.scale), line_width)elif y == 0:pygame.draw.line(self.screen, center_line_color,(self.screen_size[0] // 2 - self.x_max * self.scale, y_pos),(self.screen_size[0] // 2 + self.x_max * self.scale, y_pos), line_width)# 绘制垂直虚线elif x % 2 == 0:self.draw_dashed_line(x_pos, self.screen_size[1] // 2 - self.y_max * self.scale,x_pos, self.screen_size[1] // 2 + self.y_max * self.scale,line_color, dash_length, dash_gap)# 绘制水平虚线elif y % 2 == 0:self.draw_dashed_line(self.screen_size[0] // 2 - self.x_max * self.scale, y_pos,self.screen_size[0] // 2 + self.x_max * self.scale, y_pos,line_color, dash_length, dash_gap)def draw_dashed_line(self, x1, y1, x2, y2, color, dash_length, dash_gap):""" 绘制虚线 """total_length = np.linalg.norm([x2 - x1, y2 - y1])num_dashes = int(total_length / (dash_length + dash_gap))# 计算每段虚线的起始和结束点for i in range(num_dashes):start_x = x1 + (x2 - x1) * (i * (dash_length + dash_gap)) / total_lengthstart_y = y1 + (y2 - y1) * (i * (dash_length + dash_gap)) / total_lengthend_x = x1 + (x2 - x1) * ((i * (dash_length + dash_gap) + dash_length) / total_length)end_y = y1 + (y2 - y1) * ((i * (dash_length + dash_gap) + dash_length) / total_length)# 绘制虚线段pygame.draw.line(self.screen, color, (start_x, start_y), (end_x, end_y), 1)# 测试代码
if __name__ == "__main__":env = RandomWalk2DEnv()env.reset()for _ in range(50):action = env.action_space.sample()  # 采样一个动作（x 和 y 分量在 -1 到 1 之间）state, reward, done, info = env.step(action)env.render()if done:print("智能体触及边缘，回合结束")break

在这里插入图片描述

【URL】一个简单基于Gym的2D随机游走环境，用于无监督强化学习（URL）

import gym from gym import spaces import numpy as np import pygameclass RandomWalk2DEnv(gym.Env):def __init__(self):super(RandomWalk2DEnv, self).__init__()# 定义状态空间为2D坐标（x, y）self.x_min, self.x_max -10, 10 # 更新尺寸为 (-10,…...

编程日记 2025/2/3 11:09:05

【VM】VirtualBox安装ubuntu22.04虚拟机

阅读本文之前，请先根据安装virtualbox 教程安装virtulbox虚拟机软件。 1.下载Ubuntu系统镜像打开阿里云的镜像站点：https://developer.aliyun.com/mirror/ 找到如图所示位置，选择Ubuntu 22.04.3(destop-amd64)系统 Ubuntu 22.04.3(desto…...

编程日记 2025/2/3 11:07:02

MySQL的GROUP BY与COUNT()函数的使用问题

在MySQL中，GROUP BY和 COUNT()函数是数据聚合查询中非常重要的工具。正确使用它们可以有效地统计和分析数据。然而，不当的使用可能会导致查询结果不准确或性能低下。本文将详细讨论 GROUP BY和 COUNT()函数的使用方法及常见问题，并提供相应的…...

编程日记 2025/2/3 11:04:59

C# 精炼题18道题(类,三木运算,Switch,计算器)

1.数组元素和 2.数组元素乘积 3.数组元素平均数 4.数组中最大值 5.数组中的偶数 6.数组中的阶乘 7.数组反转 8.字符串反转 9.回文字符串 10.检查回文 11.最小最大值 12.找素数 13.字符串中的最长无重复字符串 14.字符串去重 15.数组中计算两数之和 16.数字到字符…...

编程日记 2025/2/3 11:03:55

96，【4】 buuctf web [BJDCTF2020]EzPHP

进入靶场查看源代码 GFXEIM3YFZYGQ4A 一看就是编码后的 1nD3x.php 访问得到源代码 <?php // 高亮显示当前 PHP 文件的源代码，用于调试或展示代码结构 highlight_file(__FILE__); // 关闭所有 PHP 错误报告，防止错误信息泄露可能的安全漏洞 erro…...

编程日记 2025/2/3 11:01:49

数据库 - Sqlserver - SQLEXPRESS、由Windows认证改为SQL Server Express认证进行连接 (sa登录）

本文讲SqlServer Express版本在登录的时候， 如何由Windows认证，修改为Sql Server Express认证。目录 1，SqlServer Express的Windows认证 2，修改为混合认证 3，启用sa 用户 4，用sa 用户登录下面是详细…...

编程日记 2025/2/3 10:56:38

2025年02月02日Github流行趋势

项目名称：oumi 项目地址url：https://github.com/oumi-ai/oumi 项目语言：Python 历史star数：1416 今日star数：205 项目维护者：xrdaukar, oelachqar, taenin, wizeng23, kaisopos 项目简介：构建最…...

编程日记 2025/2/3 10:55:35

【数据分析】案例03：当当网近30日热销图书的数据采集与可视化分析（scrapy+openpyxl+matplotlib）

当当网近30日热销图书的数据采集与可视化分析（scrapy+openpyxl+matplotlib）当当网近30日热销书籍官网写在前面实验目的：实现当当网近30日热销图书的数据采集与可视化分析。电脑系统：Windows 使用软件：Visual Studio Code Python版本：python 3.12.4 技术需求：scrapy、…...

编程日记 2025/2/3 10:51:31

如何使用 DeepSeek 和 Dexscreener 构建免费的 AI 加密交易机器人？

我使用DeepSeek AI和Dexscreener API构建的一个简单的 AI 加密交易机器人实现了这一目标。在本文中，我将逐步指导您如何构建像我一样的机器人。 DeepSeek 最近发布了R1，这是一种先进的 AI 模型。您可以将其视为 ChatGPT 的免费开源版本，但增加…...

编程日记 2025/2/3 10:50:21

buu-jarvisoj_level0-好久不见30

嘶，我咋觉得这个也是栈溢出呢，找到读取的值，在再找到后门函数...

编程日记 2025/2/3 10:48:18

深度学习查漏补缺：1.梯度消失、梯度爆炸和残差块

一、梯度消失梯度消失的根本原因在于激活函数的性质和链式法则的计算： 激活函数的导数很小： 常见的激活函数（例如 Sigmoid 和 Tanh）在输入较大或较小时，输出趋于饱和（Sigmoid 的输出趋于 0 或 1&#xf…...

编程日记 2025/2/3 10:42:11

【Numpy核心编程攻略：Python数据处理、分析详解与科学计算】2.2 多维数组切片：跨步访问与内存布局

2.2 多维数组切片：跨步访问与内存布局目录/提纲 #mermaid-svg-FbBIOMVivQfdX2LJ {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-FbBIOMVivQfdX2LJ .error-icon{fill:#552222;}#mermaid-svg-FbBIOMVivQ…...

编程日记 2025/2/3 10:41:10

ResNet--深度学习中的革命性网络架构

一、引言在深度学习的研究和应用中，网络架构的设计始终是一个关键话题。随着计算能力和大数据的不断提升，深度神经网络逐渐成为解决复杂任务的主流方法。然而，随着网络层数的增加，训练深度神经网络往往面临梯度消失或梯度爆炸的…...

编程日记 2025/2/3 10:40:09

TypeScript语言的语法糖

TypeScript语言的语法糖 TypeScript作为一种由微软开发的开源编程语言，它在JavaScript的基础上添加了一些强类型的特性，使得开发者能够更好地进行大型应用程序的构建和维护。在TypeScript中，不仅包含了静态类型、接口、枚举等强大的特性&…...

编程日记 2025/2/3 10:37:02

17.2 图形绘制4

编程日记 2025/2/3 10:35:59

tomcat核心组件及原理概述

目录 1. tomcat概述 1.1 概念 1.2 官网地址 2. 基本使用 2.1下载 3. 整体架构 3.1 核心组件 3.2 从web.xml配置和模块对应角度 3.3 如何处理请求 4. 配置JVM参数 5. 附录 1. tomcat概述 1.1 概念什么是tomcat Tomcat是一个开源、免费、轻量级的Web服务器。 Tomca…...

编程日记 2025/2/3 10:32:56

本地部署DeepSeek教程（Mac版本）

第一步、下载 Ollama 官网地址：Ollama 点击 Download 下载我这里是 macOS 环境以 macOS 环境为主下载完成后是一个压缩包，双击解压之后移到应用程序： 打开后会提示你到命令行中运行一下命令，附上截图： 若遇…...

编程日记 2025/2/3 10:30:51

MyBatis-Plus笔记-快速入门

大家在日常开发中应该能发现，单表的CRUD功能代码重复度很高，也没有什么难度。而这部分代码量往往比较大，开发起来比较费时。因此，目前企业中都会使用一些组件来简化或省略单表的CRUD开发工作。目前在国内使用较多的一个组件就是…...

编程日记 2025/2/3 10:29:46

爬取豆瓣书籍数据

# 1. 导入库包 import requests from lxml import etree from time import sleep import os import pandas as pd import reBOOKS [] IMGURLS []# 2. 获取网页源代码 def get_html(url):headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36…...

编程日记 2025/2/3 10:28:45

基于微信小程序的电子商城购物系统设计与实现（LW+源码+讲解）

专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌。技术范围：SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：…...

编程日记 2025/2/3 10:27:44

RocketMQ延迟消息机制

两种延迟消息 RocketMQ中提供了两种延迟消息机制指定固定的延迟级别通过在Message中设定一个MessageDelayLevel参数，对应18个预设的延迟级别指定时间点的延迟级别通过在Message中设定一个DeliverTimeMS指定一个Long类型表示的具体时间点。到了时间点后&#xf…...

编程新知 2026/2/5 5:03:16

FFmpeg 低延迟同屏方案

引言在实时互动需求激增的当下，无论是在线教育中的师生同屏演示、远程办公的屏幕共享协作，还是游戏直播的画面实时传输，低延迟同屏已成为保障用户体验的核心指标。FFmpeg 作为一款功能强大的多媒体框架，凭借其灵活的编解码、数据…...

编程新知 2025/11/4 6:26:59

PPT|230页| 制造集团企业供应链端到端的数字化解决方案：从需求到结算的全链路业务闭环构建

制造业采购供应链管理是企业运营的核心环节，供应链协同管理在供应链上下游企业之间建立紧密的合作关系，通过信息共享、资源整合、业务协同等方式，实现供应链的全面管理和优化，提高供应链的效率和透明度，降低供应链的成…...

编程新知 2026/1/30 22:07:56

在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module

1、为什么要修改 CONNECT 报文？ 多租户隔离：自动为接入设备追加租户前缀，后端按 ClientID 拆分队列。零代码鉴权：将入站用户名替换为 OAuth Access-Token，后端 Broker 统一校验。灰度发布：根据 IP/地理位写…...

编程新知 2025/8/1 10:20:23

数据链路层的主要功能是什么

数据链路层（OSI模型第2层）的核心功能是在相邻网络节点（如交换机、主机）间提供可靠的数据帧传输服务，主要职责包括： 🔑 核心功能详解： 帧封装与解封装封装： 将网络层下发…...

编程新知 2026/2/1 7:31:51

ServerTrust 并非唯一

NSURLAuthenticationMethodServerTrust 只是 authenticationMethod 的冰山一角要理解 NSURLAuthenticationMethodServerTrust, 首先要明白它只是 authenticationMethod 的选项之一, 并非唯一 1 先厘清概念点说明authenticationMethodURLAuthenticationChallenge.protectionS…...

编程新知 2026/1/29 5:29:57

图表类系列各种样式PPT模版分享

图标图表系列PPT模版，柱状图PPT模版，线状图PPT模版，折线图PPT模版，饼状图PPT模版，雷达图PPT模版，树状图PPT模版图表类系列各种样式PPT模版分享：图表系列PPT模板https://pan.quark.cn/s/20d40aa…...

编程新知 2026/2/4 18:07:02

SiFli 52把Imagie图片，Font字体资源放在指定位置，编译成指定img.bin和font.bin的问题

分区配置 (ptab.json) img 属性介绍： img 属性指定分区存放的 image 名称，指定的 image 名称必须是当前工程生成的 binary 。如果 binary 有多个文件，则以 proj_name:binary_name 格式指定文件名， proj_name 为工程名&…...

编程新知 2026/1/23 10:51:19

免费PDF转图片工具

免费PDF转图片工具一款简单易用的PDF转图片工具，可以将PDF文件快速转换为高质量PNG图片。无需安装复杂的软件，也不需要在线上传文件，保护您的隐私。工具截图主要特点 🚀 快速转换：本地转换，无需等待上…...

编程新知 2026/1/26 9:07:56

Web后端基础(基础知识)

BS架构：Browser/Server，浏览器/服务器架构模式。客户端只需要浏览器，应用程序的逻辑和数据都存储在服务端。优点：维护方便缺点：体验一般 CS架构：Client/Server，客户端/服务器架构模式。需要单独…...

编程新知 2026/2/2 0:52:30

相关文章：