当前位置：首页 > news >正文

强化学习案例复现（1）--- MountainCar基于Q-learning

news 2025/7/3 11:42:12

1 搭建环境

1.1 gym自带

import gym# Create environment
env = gym.make("MountainCar-v0")eposides = 10
for eq in range(eposides):obs = env.reset()done = Falserewards = 0while not done:action = env.action_space.sample()obs, reward, done, action, info = env.step(action)env.render()rewards += rewardprint(rewards)

1.2 自行搭建（建议用该方法）

按照下文搭建MountainCar环境

往期文章：强化学习实践（三）基于gym搭建自己的环境（在gym0.26.2可运行）-CSDN博客

2.基于Q-learning的模型训练

import gym
import numpy as npenv = gym.make("GridWorld-v0")# Q-Learning settings
LEARNING_RATE = 0.1 #学习率
DISCOUNT = 0.95  #奖励折扣系数
EPISODES = 100  #迭代次数SHOW_EVERY = 1000# Exploration settings
epsilon = 1  # not a constant, qoing to be decayed
START_EPSILON_DECAYING = 1
END_EPSILON_DECAYING = EPISODES//2
epsilon_decay_value = epsilon/(END_EPSILON_DECAYING - START_EPSILON_DECAYING)DISCRETE_OS_SIZE = [20, 20]
discrete_os_win_size = (env.observation_space.high - env.observation_space.low) / DISCRETE_OS_SIZEprint(discrete_os_win_size)def get_discrete_state(state):discrete_state = (state - env.observation_space.low)/discrete_os_win_size# discrete_state = np.array(state - env.observation_space.low, dtype=float) / discrete_os_win_sizereturn tuple(discrete_state.astype(np.int64))  # we use this tuple to look up the 3 Q values for the available actions in the q-q_table = np.random.uniform(low=-2, high=0, size=(DISCRETE_OS_SIZE + [env.action_space.n]))for episode in range(EPISODES):state = env.reset()discrete_state = get_discrete_state(state)if episode % SHOW_EVERY == 0:render = Trueprint(episode)else:render = Falsedone = Falsewhile not done:if np.random.random() > epsilon:# Get action from Q tableaction = np.argmax(q_table[discrete_state])else:# Get random actionaction = np.random.randint(0, env.action_space.n)new_state, reward, done, _, c = env.step(action)new_discrete_state = get_discrete_state(new_state)# If simulation did not end yet after last step - update Q tableif not done:# Maximum possible Q value in next step (for new state)max_future_q = np.max(q_table[new_discrete_state])# Current Q value (for current state and performed action)current_q = q_table[discrete_state + (action,)]# And here's our equation for a new Q value for current state and actionnew_q = (1 - LEARNING_RATE) * current_q + LEARNING_RATE * (reward + DISCOUNT * max_future_q)# Update Q table with new Q valueq_table[discrete_state + (action,)] = new_q# Simulation ended (for any reson) - if goal position is achived - update Q value with reward directlyelif new_state[0] >= env.goal_position:# q_table[discrete_state + (action,)] = rewardq_table[discrete_state + (action,)] = 0print("we made it on episode {}".format(episode))discrete_state = new_discrete_stateif render:env.render()# Decaying is being done every episode if episode number is within decaying rangeif END_EPSILON_DECAYING >= episode >= START_EPSILON_DECAYING:epsilon -= epsilon_decay_valuenp.save("q_table.npy", arr=q_table)env.close()

3.模型测试

import gym
import numpy as npenv = gym.make("GridWorld-v0")# Q-Learning settings
LEARNING_RATE = 0.1
DISCOUNT = 0.95
EPISODES = 10DISCRETE_OS_SIZE = [20, 20]
discrete_os_win_size = (env.observation_space.high - env.observation_space.low) / DISCRETE_OS_SIZEdef get_discrete_state(state):discrete_state = (state - env.observation_space.low)/discrete_os_win_sizereturn tuple(discrete_state.astype(np.int64))  # we use this tuple to look up the 3 Q values for the available actions in the q-q_table = np.load(file="q_table.npy")for episode in range(EPISODES):state = env.reset()discrete_state = get_discrete_state(state)rewards = 0done = Falsewhile not done:# Get action from Q tableaction = np.argmax(q_table[discrete_state])new_state, reward, done, _, c = env.step(action)new_discrete_state = get_discrete_state(new_state)rewards += reward# If simulation did not end yet after last step - update Q tableif done and new_state[0] >= env.goal_position:print("we made it on episode {}, rewards {}".format(episode, rewards))discrete_state = new_discrete_stateenv.render()env.close()

强化学习案例复现（1）--- MountainCar基于Q-learning

1 搭建环境 1.1 gym自带 import gym# Create environment env gym.make("MountainCar-v0")eposides 10 for eq in range(eposides):obs env.reset()done Falserewards 0while not done:action env.action_space.sample()obs, reward, done, action, info env.…...

编程日记 2023/10/16 14:51:52

BUUCTF学习(6): 命令执行ip

1、介绍 2、hackbar安装 BUUCTF学习(四): 文件包含tips-CSDN博客 ?ip127.0.0.1;ag;cat$IFS$9fla$a.php 空格过滤 $IFS$9 检查源代码结束...

编程日记 2023/10/16 14:50:51

javaweb：mybatis：mapper(sql映射+代理开发+配置文件之设置别名、多环境配置、顺序+注解开发）

1.0版本 sql映射文件实现流程首先程序进入启动类MyBatisDemo.java中，读取配置文件mybatis-config.xml 再由mybatis-config的mappers属性 <mappers><mapper resource"UserMapper.xml"></mapper></mappers>找到sql映射文件Use…...

编程日记 2023/10/16 14:49:50

JavaScript基础知识——练习巩固（2）

写一个程序，要求如下需求1：让用户输入五个有效年龄（0-100之间），放入数组中必须输入五个有效年龄年龄，如果是无效年龄，则不能放入数组中需求2：打印出所有成年人的年龄 (数组筛选)…...

编程日记 2023/10/16 14:48:49

FutureTask的测试使用和方法执行分析

FutureTask类图如下 java.util.concurrent.FutureTask#run run方法执行逻辑如下 public void run() {if (state ! NEW ||!RUNNER.compareAndSet(this, null, Thread.currentThread()))return;try {Callable<V> c callable;if (c ! null && state NEW) {V res…...

编程日记 2023/10/16 14:47:47

SpringMVC的请求处理

目录请求映射路径的配置请求数据的接收接收Restful风格的数据什么是Restful风格？ 接收上传文件获取headers头信息和cookie信息 JavaWeb常用对象获取请求静态资源注解驱动标签请求映射路径的配置请求映射路径的配置主要是通过RequestMapping注解实现…...

编程日记 2023/10/16 14:46:46

260. 只出现一次的数字 III

给你一个整数数组 nums，其中恰好有两个元素只出现一次，其余所有元素均出现两次。找出只出现一次的那两个元素。你可以按任意顺序返回答案。你必须设计并实现线性时间复杂度的算法且仅使用常量额外空间来解决此问题。示例 1： 输入&…...

编程日记 2023/10/16 14:45:44

家政预约接单系统，家政保洁小程序开发；

家政预约接单系统，家政保洁维修小程序开发，阿姨管理，家政保险，合同管理，资金管理，营销推广等功能，包括：推广、营销、管理、培训、周边服务等等家政系统详细功能介绍： 家…...

编程日记 2023/10/16 14:44:43

网络安全工程师需要学什么？零基础怎么从入门到精通，看这一篇就够了

网络安全工程师需要学什么？零基础怎么从入门到精通，看这一篇就够了我发现关于网络安全的学习路线网上有非常多看似高大上却无任何参考意义的回答。大多数的路线都是给了一个大概的框架，告诉你那些东西要考，以及建议了一个学习顺…...

编程日记 2023/10/16 14:43:42

出差学知识No3：ubuntu查询文件大小|文件包大小|磁盘占用情况等

1、查询单个文件占用内存大小2、显示一个目录下所有文件和文件包的大小3、显示ubuntu所有磁盘的占用情况4、查看ubuntu单个包的占用情况 1、查询单个文件占用内存大小使用指令：ls -lh 文件 2、显示一个目录下所有文件和文件包的大小指令：du -sh* 3…...

编程日记 2023/10/16 14:42:41

详解cv2.copyMakeBorder函数【OpenCV图像边界填充Python版本】

文章目录简介函数原型代码示例参考资料简介做深度学习图像数据集时，有时候需要调整一张图片的长和宽。如果直接使用cv2.resize函数会造成图像扭曲失真，因此我们可以采取填充图像短边的方法解决这个问题。cv2.copyMakeBorder函数提供了相关操作。本篇…...

编程日记 2023/10/16 14:41:40

前端技术-并发请求

并发请求代码解释定义了一个函数 concurRequest，用于并发请求多个 URL 并返回它们的响应结果。 function concurRequest(urls, maxNum) {return new Promise((resolve, reject) > {if (urls.length 0) {resolve([]);return;}const results [];let index …...

编程日记 2023/10/16 14:39:39

面试题-React(十三)：React中获取Refs的几种方式

一、Refs的基本概念 Refs是React提供的一种访问DOM元素或组件实例的方式。通过Refs，我们可以在React中获取到底层的DOM节点或组件实例，并进行一些操作。Refs的使用场景包括但不限于：访问DOM属性、调用组件方法、获取输入框的值等。二、获取…...

编程日记 2023/10/16 14:38:37

Linux CentOS 7升级curl8.4.0使用编译安装方式

1、查看当前版本 # curl --version curl 7.29.0 (x86_64-redhat-linux-gnu) libcurl/7.29.0 NSS/3.19.1 Basic ECC zlib/1.2.7 libidn/1.28 libssh2/1.4.3 Protocols: dict file ftp ftps gopher http https imap imaps ldap ldaps pop3 pop3s rtsp scp sftp smtp smtps tel…...

编程日记 2023/10/16 14:37:36

探寻JWT的本质：它是什么？它有什么作用？

JWT（JSON Web Token）是一种基于 JSON 格式的轻量级令牌（token）协议，它被广泛应用于网络应用程序的身份验证和授权。相较于传统的 session-based 认证机制，JWT 具有更好的扩展性和互操作性，同时也…...

编程日记 2023/10/16 14:33:32

关于雅思听力答案限定字数的解释。

1. No more than three words and/or a number：31，可以填3/2/1个单词；1个数字；3/2/1个单词1个数字 2. No more than three words and/or numbers：3n，可以填3/2/1个单词；n个数字；3/2…...

编程日记 2023/10/16 14:32:31

化工python | CSTR连续搅拌反应器系统

绝热连续搅拌釜反应器 (CSTR) 是过程工业中常见的化学系统。容器中发生单个一级放热且不可逆的反应 A → B，假定容器始终完全混合。试剂 A 的入口流以恒定的体积速率进入罐。产物流B以相同的体积速率连续排出，液体密度恒定。因此，反应液体的体积是恒定的。在反应器中发…...

编程日记 2023/10/16 14:31:30

交通物流模型 | 基于自监督学习的交通流预测模型

交通物流模型 | 基于自监督学习的交通流预测模型在智能交通系统中，准确预测不同时间段的城市交通流量是至关重要的。现有的方法存在两个关键的局限性：1、大多数模型集中预测所有区域的交通流量，而没有考虑空间异质性，即不同区域的交通流量分布可能存在偏差；2、现有模型无…...

编程日记 2023/10/16 14:30:29

343. 整数拆分 96.不同的二叉搜索树

343. 整数拆分设dp[i]表示拆分数字i 出来的正整数相乘值最大的值 (i - j) * j,和dp[i - j] * j是获得dp[i]的两种乘法，在里面求最大值可以得到当前dp[i]的最大值，但是这一次的得出的最大值如果赋值给dp[i]，可能没有没赋值的dp[i]大&#…...

编程日记 2023/10/16 14:29:27

Vue3理解(9)

侦听器 1.计算属性允许我们声明性地计算衍生值,而在有些情况下，我们需要状态变化时执行一些方法例如修改DOM。 2.侦测数据源类型，watch的第一个参数可以市不同形式的‘数据源’，它可以市一个ref(包括计算属性)，一个响应式对象&…...

编程日记 2023/10/16 14:28:26

网络编程（Modbus进阶）

思维导图 Modbus RTU（先学一点理论） 概念 Modbus RTU 是工业自动化领域最广泛应用的串行通信协议，由 Modicon 公司（现施耐德电气）于 1979 年推出。它以高效率、强健性、易实现的特点成为工业控制系统的通信标准。包…...

编程新知 2025/7/1 13:03:01

vscode里如何用git

打开vs终端执行如下： 1 初始化 Git 仓库（如果尚未初始化） git init 2 添加文件到 Git 仓库 git add . 3 使用 git commit 命令来提交你的更改。确保在提交时加上一个有用的消息。 git commit -m "备注信息" 4 …...

编程新知 2025/6/21 12:50:31

突破不可导策略的训练难题：零阶优化与强化学习的深度嵌合

强化学习（Reinforcement Learning, RL）是工业领域智能控制的重要方法。它的基本原理是将最优控制问题建模为马尔可夫决策过程，然后使用强化学习的Actor-Critic机制（中文译作“知行互动”机制），逐步迭代求解…...

编程新知 2025/7/2 17:02:56

多场景 OkHttpClient 管理器 - Android 网络通信解决方案

下面是一个完整的 Android 实现，展示如何创建和管理多个 OkHttpClient 实例，分别用于长连接、普通 HTTP 请求和文件下载场景。 <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas…...

编程新知 2025/6/20 19:09:22

Qt Widget类解析与代码注释

#include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this); }Widget::~Widget() {delete ui; }//解释这串代码，写上注释当然可以！这段代码是 Qt …...

编程新知 2025/6/15 21:47:30

江苏艾立泰跨国资源接力：废料变黄金的绿色供应链革命

在华东塑料包装行业面临限塑令深度调整的背景下，江苏艾立泰以一场跨国资源接力的创新实践，重新定义了绿色供应链的边界。跨国回收网络：废料变黄金的全球棋局艾立泰在欧洲、东南亚建立再生塑料回收点，将海外废弃包装箱通过标准…...

编程新知 2025/6/26 5:15:53

Java入门学习详细版（一）

大家好，Java 学习是一个系统学习的过程，核心原则就是“理论实践坚持”，并且需循序渐进，不可过于着急，本篇文章推出的这份详细入门学习资料将带大家从零基础开始，逐步掌握 Java 的核心概念和编程技能。 …...

编程新知 2025/6/21 6:15:03

[Java恶补day16] 238.除自身以外数组的乘积

给你一个整数数组 nums，返回数组 answer ，其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积。题目数据保证数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位整数范围内。请不要使用除法，且在 O(n) 时间复杂度…...

编程新知 2025/6/21 1:28:46

【LeetCode】3309. 连接二进制表示可形成的最大数值（递归|回溯|位运算）

LeetCode 3309. 连接二进制表示可形成的最大数值（中等） 题目描述解题思路Java代码题目描述题目链接：LeetCode 3309. 连接二进制表示可形成的最大数值（中等） 给你一个长度为 3 的整数数组 nums。现以某种顺序连接…...

编程新知 2025/6/20 11:26:05

鸿蒙（HarmonyOS5）实现跳一跳小游戏

下面我将介绍如何使用鸿蒙的ArkUI框架，实现一个简单的跳一跳小游戏。 1. 项目结构 src/main/ets/ ├── MainAbility │ ├── pages │ │ ├── Index.ets // 主页面 │ │ └── GamePage.ets // 游戏页面 │ └── model │ …...

编程新知 2025/6/12 10:12:13

1 搭建环境

1.1 gym自带

1.2 自行搭建（建议用该方法）

2.基于Q-learning的模型训练

3.模型测试

相关文章：