当前位置：首页 > news >正文

【强化学习】SARAS代码实现

news 2026/2/8 3:51:26

前言

SARAS，假设环境状态和动作状态都是离散的。利用动作价值矩阵来进行行为的预测。其主要就是利用时序差分的思想，对动作价值矩阵进行更新。

代码实现

import gymnasium as gym
import numpy as npclass sarsa():def __init__(self, states_n, action_n, greedy_e=0.1):self.Q = np.zeros((states_n, action_n)) #动作价值矩阵self.greedy_e = greedy_e #随机探索的概率self.states_n = states_n #环境状态个数self.action_n = action_n #行动状态个数self.gamma=0.9 #价值衰减值self.lr=0.1 #学习率def predict(self, states):action_list=self.Q[states]#先拿出对应的行#再取出对应价值最大的行为，如果有重复则在重复项中随机选取，返回索引action=np.random.choice(np.flatnonzero(action_list==action_list.max()))return actiondef act(self, states):'''由对应环境产生对应的行动@param states: 当前环境@return: 行动动作'''if np.random.uniform() < self.greedy_e:#是否采取随即探索action = np.random.choice(np.arange(self.action_n))#随机探索else:action = self.predict(states) # 根据行动价值矩阵进行预测return actiondef learning(self,state,action,reward,next_state,next_action,does):'''学习更新参数@param state: 环境状态@param action: 采取的行动@param reward: 回报@param next_state: 采取行动后的下一个环境状态@param next_action: 下一个环境状态对应的行为@param does: 游戏是否结束@return:'''current_q=self.Q[state,action] #取出对应的行动价值if does: #查看是否已经完成游戏，完成则直接将当前回报作为下一个行动价值next_q=rewardelse:# 计算当前回报和下一个环境状态和下一个行动对应的价值，加和next_q=reward+self.gamma*self.Q[next_state,next_action]self.Q[state,action]+=self.lr*(next_q-current_q) #时序差分，更新行动价值矩阵def train():env = gym.make("FrozenLake-v1", render_mode="human")#初始化游戏环境obs,info=env.reset()#重置位置agent=sarsa(env.observation_space.n,env.action_space.n)#初始化模型action = agent.act(obs)#预测行为num=0while True:num+=1# 由行为产生回报和下一个环境状态next_obs, reward, done, truncated, info = env.step(action)#预测下一个动作next_action=agent.act(obs)# 更新参数agent.learning(obs,action,reward,next_obs,next_action,done)obs=next_obsaction=next_action# 判断游戏是否结束或者中断，是则重置游戏if done or truncated:obs, info = env.reset()if num % 100 == 0 :env.close()if __name__ == '__main__':train()

【强化学习】SARAS代码实现

前言 SARAS，假设环境状态和动作状态都是离散的。利用动作价值矩阵来进行行为的预测。其主要就是利用时序差分的思想，对动作价值矩阵进行更新。代码实现 import gymnasium as gym import numpy as npclass sarsa():def __init__(self, states_n, acti…...

编程日记 2024/1/1 1:25:58

P1019 [NOIP2000 提高组] 单词接龙刷题笔记

P1019 [NOIP2000 提高组] 单词接龙 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 思路来自大佬 Chardo 的个人中心 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 匹配 ： 将第一个字符串末尾和第二个字符串第一个开始匹配如果 j<i这段走完了 flag还没…...

编程日记 2024/1/1 1:23:56

如何实现WinApp的UI自动化测试？

WinApp（WindowsAPP）是运行在Windows操作系统上的应用程序，通常会提供一个可视的界面，用于和用户交互。例如运行在Windows系统上的Microsoft Office、PyCharm、Visual Studio Code、Chrome，都属于WinApp。常见的WinApp&…...

编程日记 2024/1/1 1:20:54

chrome扩展程序开发之在目标页面运行自己的JS

原文地址：https://qdgithub.com/home/index/article/aid/247.html chrome 插件开发的入门介绍，实现利用 chrome 扩展实现在目标网页运行我们的 js 的功能。关于 chrome 扩展的详细内容，可以通过官网了解。开发工具很简单，记事本…...

编程日记 2024/1/1 1:19:53

目录 1. 代码及解读2. 知识点n-grams仅保留最常见的1000个n-grams。意思是n1000 ? 1. 代码及解读 in_f open(data.csv) lines in_f.readlines() in_f.close() dataset [(line.strip()[:-3], line.strip()[-2:]) for line in lines] print(dataset[:5])[(1 december wereld…...

编程日记 2024/1/1 1:18:52

Linux lpr命令教程：如何使用lpr命令打印文件（附案例详解和注意事项）

Linux lpr命令介绍 lpr命令在Unix-like操作系统中用于提交打印任务。如果在命令行中指定了文件名，那么这些文件将被发送到指定的打印机（如果没有指定目的地，则发送到默认目的地）。如果命令行中没有列出文件，lpr将从标…...

编程日记 2024/1/1 1:17:51

浅谈C语言inline关键字

对于C开发者来说，inline是个再熟悉不过的关键字，因为默认的成员函数都是inline，也是常规高校教材中宣扬C的“优势”之一。但是C语言其实也是支持inline关键字的，而且是很早期的gcc就支持了该关键字。在Linux0.12版本内核代码中也…...

编程日记 2024/1/1 1:15:49

Flink1.17实战教程（第六篇：容错机制）

系列文章目录 Flink1.17实战教程（第一篇：概念、部署、架构） Flink1.17实战教程（第二篇：DataStream API） Flink1.17实战教程（第三篇：时间和窗口） Flink1.17实战教程&…...

编程日记 2024/1/1 1:14:49

OpenCV实战 -- 维生素药片的检测记数

文章目录检测记数原图经过操作开始进行消除粘连性--形态学变换总结实现方法1. 读取图片：2. 形态学处理：3. 二值化：4. 提取轮廓：5. 轮廓筛选和计数： 分水岭算法：逐行解释在基于距离变换的分水岭算法中&…...

编程日记 2024/1/1 1:12:47

【AI】注意力机制与深度学习模型

目录一、注意力机制二、了解发展历程 2.1 早期萌芽： 2.2 真正意义的注意力机制： 2.3 2015 年及以后： 2.4 自注意力与 Transformer： 2.5 BERT 与预训练模型： 三、基本框架 1. 打分函数（Score Fun…...

编程日记 2024/1/1 1:11:46

HTML5和JS实现新年礼花效果

HTML5和JS实现新年礼花效果 2023兔年再见，2024龙年来临了！ 祝愿读者朋友们在2024年里，身体健康，心灵愉悦，梦想成真。下面是用HTML5和JS实现新年礼花效果： 源码如下： <!DOCTYPE html>…...

编程日记 2024/1/1 1:06:42

【owt-server】一些构建项目梳理

【owt-server】清理日志：owt、srs、ffmpeg 【owt】p2p client mfc 工程梳理【m98】webrtc vs2017构建带符号的debug库【OWT】梳理构建的webrtc和owt mfc工程 m79的mfc客户端及owt-client...

编程日记 2024/1/1 1:04:40

Linux shell编程学习笔记38：history命令

目录 0 前言 1 history命令的功能、格式和退出状态1.1 history命令的功能1.2 history命令的格式1.3退出状态2 命令应用实例2.1 history：显示命令历史列表2.2 history -a：将当前会话的命令行历史追加到历史文件~/.bash_history中2.3 history -c&#xf…...

编程日记 2024/1/1 1:03:39

elasticsearch安装教程（超详细）

1.1 创建网络（单点部署） 因为我们还需要部署 kibana 容器，因此需要让 es 和 kibana 容器互联，所有先创建一个网络： docker network create es-net 1.2.加载镜像采用的版本为 7.12.1 的 elasticsearch；…...

编程日记 2024/1/1 1:00:36

arkts中@Watch监听的使用

概述 Watch用于监听状态变量的变化，当状态变量变化时，Watch的回调方法将被调用。Watch在ArkUI框架内部判断数值有无更新使用的是严格相等（），遵循严格相等规范。当在严格相等为false的情况下，就会触发Watch的…...

编程日记 2024/1/1 0:59:36

【Jmeter】Jmeter基础9-BeanShell介绍

3、BeanShell BeanShell是一种完全符合Java语法规范的脚本语言,并且又拥有自己的一些语法和方法。 3.1、Jmeter中使用的BeanShell 在Jmeter中，除了配置元件，其他类型的元件中都有BeanShell。BeanShell 是一种完全符合Java语法规范的脚本语言,并且又拥…...

编程日记 2024/1/1 0:58:34

详解数组的轮转

𝙉𝙞𝙘𝙚!!👏🏻‧✧̣̥̇‧✦👏🏻‧✧̣̥̇‧✦ 👏🏻‧✧̣̥̇:Solitary-walk ⸝⋆ ━━━┓ - 个性标签 - ：来于“云”的“羽球人”。…...

编程日记 2024/1/1 0:57:34

html 表格笔记

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>第二个页面</title><meta name"language" content"cn"> </head> <body><h2 sytle"width:500px;…...

编程日记 2024/1/1 0:56:33

计算机网络【HTTP 面试题】

HTTP的请求报文结构和响应报文结构 HTTP请求报文主要由请求行、请求头、空行、请求正文（Get请求没有请求正文）4部分组成。 1、请求行由三部分组成，分别为：请求方法、URL以及协议版本，之间由空格分隔；请…...

编程日记 2024/1/1 0:54:29

linux基于用户身份对资源访问进行控制的解析及过程

linux中用户分为三类 1.超级用户（root） 拥有至高无上的权限 2.普通用户人为创建、权限小，权限受到控制 3.程序用户运行程序的用户，不是给人使用的，给程序使用的，一般不给登录！ 组账…...

编程日记 2024/1/1 0:53:28

CentOS下的分布式内存计算Spark环境部署

一、Spark 核心架构与应用场景 1.1 分布式计算引擎的核心优势 Spark 是基于内存的分布式计算框架，相比 MapReduce 具有以下核心优势： 内存计算：数据可常驻内存，迭代计算性能提升 10-100 倍（文档段落：3-79…...

编程新知 2026/2/5 1:30:05

spring：实例工厂方法获取bean

spring处理使用静态工厂方法获取bean实例，也可以通过实例工厂方法获取bean实例。实例工厂方法步骤如下： 定义实例工厂类（Java代码），定义实例工厂（xml），定义调用实例工厂&#xff…...

编程新知 2025/11/25 22:46:30

MySQL 8.0 OCP 英文题库解析（十三）

Oracle 为庆祝 MySQL 30 周年，截止到 2025.07.31 之前。所有人均可以免费考取原价245美元的MySQL OCP 认证。从今天开始，将英文题库免费公布出来，并进行解析，帮助大家在一个月之内轻松通过OCP认证。本期公布试题111~120 试题1…...

编程新知 2026/1/31 7:25:57

EtherNet/IP转DeviceNet协议网关详解

一，设备主要功能疆鸿智能JH-DVN-EIP本产品是自主研发的一款EtherNet/IP从站功能的通讯网关。该产品主要功能是连接DeviceNet总线和EtherNet/IP网络，本网关连接到EtherNet/IP总线中做为从站使用，连接到DeviceNet总线中做为从站使用。在自动…...

编程新知 2026/1/31 6:53:51

多种风格导航菜单 HTML 实现（附源码）

下面我将为您展示 6 种不同风格的导航菜单实现，每种都包含完整 HTML、CSS 和 JavaScript 代码。 1. 简约水平导航栏 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport&qu…...

编程新知 2026/2/2 2:49:11

Caliper 配置文件解析：config.yaml

Caliper 是一个区块链性能基准测试工具，用于评估不同区块链平台的性能。下面我将详细解释你提供的 fisco-bcos.json 文件结构，并说明它与 config.yaml 文件的关系。 fisco-bcos.json 文件解析这个文件是针对 FISCO-BCOS 区块链网络的 Caliper 配置文件，主要包含以下几个部…...

编程新知 2025/8/13 13:40:18

Typeerror: cannot read properties of undefined (reading ‘XXX‘)

最近需要在离线机器上运行软件，所以得把软件用docker打包起来，大部分功能都没问题，出了一个奇怪的事情。同样的代码，在本机上用vscode可以运行起来，但是打包之后在docker里出现了问题。使用的是dialog组件，…...

编程新知 2025/9/24 3:05:06

JAVA后端开发——多租户

数据隔离是多租户系统中的核心概念，确保一个租户（在这个系统中可能是一个公司或一个独立的客户）的数据对其他租户是不可见的。在 RuoYi 框架（您当前项目所使用的基础框架）中，这通常是通过在数据表中增加一个…...

编程新知 2025/12/18 8:35:12

招商蛇口 | 执笔CID，启幕低密生活新境

作为中国城市生长的力量，招商蛇口以“美好生活承载者”为使命，深耕全球111座城市，以央企担当匠造时代理想人居。从深圳湾的开拓基因到西安高新CID的战略落子，招商蛇口始终与城市发展同频共振，以建筑诠释对土地与生活的…...

编程新知 2026/1/26 8:13:33

android13 app的触摸问题定位分析流程

一、知识点一般来说，触摸问题都是app层面出问题，我们可以在ViewRootImpl.java添加log的方式定位；如果是touchableRegion的计算问题，就会相对比较麻烦了，需要通过adb shell dumpsys input > input.log指令，且通过打印堆栈的方式，逐步定位问题，并找到修改方案。问题…...

编程新知 2026/1/31 13:18:31

【强化学习】SARAS代码实现

前言

代码实现

相关文章：

【强化学习】SARAS代码实现

P1019 [NOIP2000 提高组] 单词接龙刷题笔记

如何实现WinApp的UI自动化测试？

chrome扩展程序开发之在目标页面运行自己的JS

NLP项目之语种识别

Linux lpr命令教程：如何使用lpr命令打印文件（附案例详解和注意事项）

浅谈C语言inline关键字

Flink1.17实战教程（第六篇：容错机制）

OpenCV实战 -- 维生素药片的检测记数

【AI】注意力机制与深度学习模型

HTML5和JS实现新年礼花效果

【owt-server】一些构建项目梳理

Linux shell编程学习笔记38：history命令

elasticsearch安装教程（超详细）

arkts中@Watch监听的使用

【Jmeter】Jmeter基础9-BeanShell介绍

详解数组的轮转

html 表格笔记

计算机网络【HTTP 面试题】

linux基于用户身份对资源访问进行控制的解析及过程

CentOS下的分布式内存计算Spark环境部署

spring：实例工厂方法获取bean

MySQL 8.0 OCP 英文题库解析（十三）

EtherNet/IP转DeviceNet协议网关详解

多种风格导航菜单 HTML 实现（附源码）

Caliper 配置文件解析：config.yaml

Typeerror: cannot read properties of undefined (reading ‘XXX‘)

JAVA后端开发——多租户

招商蛇口 | 执笔CID，启幕低密生活新境

android13 app的触摸问题定位分析流程