当前位置：首页 > news >正文

强化学习10——免模型控制Q-learning算法

news 文章来源：https://blog.csdn.net/beiketaoerge/article/details/135489699 2025/4/26 19:58:08

Q-learning算法

主要思路

由于 $V_\pi(s)=\sum_{a\in A}\pi(a\mid s)Q_\pi(s,a)$ ，当我们直接预测动作价值函数，在决策中选择Q值最大即动作价值最大的动作，则可以使策略和动作价值函数同时最优，那么由上述公式可得，状态价值函数也是最优的。
$Q(s_t,a_t)\leftarrow Q(s_t,a_t)+\alpha[r_t+\gamma\max_aQ(s_{t+1},a)-Q(s_t,a_t)]$
Q-learning基于时序差分的更新方法，具体流程如下所示：

初始化 $Q (s, a)$
for 序列 $e=1\to E$ do:
- 得到初始状态s
- for 时步 $t=1\to T$ do：
  - 使用 $\epsilon -greedy$ 策略根据Q选择当前状态s下的动作a
  - 得到环境反馈 $r, s^{'}$
  - $Q(s,a)\leftarrow Q(s,a)+\alpha[r+\gamma\max_{a^{\prime}}Q(s^{\prime},a^{\prime})-Q(s,a)]$
  - $s\gets s'$
- end for
end for

算法实战

我们在悬崖漫步环境下实习Q-learning算法。

首先创建悬崖漫步的环境：

import matplotlib.pyplot as plt
import numpy as np
from tqdm import tqdm  # tqdm是显示循环进度条的库class CliffWalkingEnv:def __init__(self, ncol, nrow):self.nrow = nrowself.ncol = ncolself.x = 0  # 记录当前智能体位置的横坐标self.y = self.nrow - 1  # 记录当前智能体位置的纵坐标def step(self, action):  # 外部调用这个函数来改变当前位置# 4种动作, change[0]:上, change[1]:下, change[2]:左, change[3]:右。坐标系原点(0,0)# 定义在左上角change = [[0, -1], [0, 1], [-1, 0], [1, 0]]self.x = min(self.ncol - 1, max(0, self.x + change[action][0]))self.y = min(self.nrow - 1, max(0, self.y + change[action][1]))next_state = self.y * self.ncol + self.xreward = -1done = Falseif self.y == self.nrow - 1 and self.x > 0:  # 下一个位置在悬崖或者目标done = Trueif self.x != self.ncol - 1:reward = -100return next_state, reward, donedef reset(self):  # 回归初始状态,坐标轴原点在左上角self.x = 0self.y = self.nrow - 1return self.y * self.ncol + self.x

创建Q-learning算法

class QLearning:def __init__(self, ncol, nrow, epsilon, alpha, gamma,n_action=4):self.epsilon = epsilon  # 随机探索的概率self.alpha = alpha  # 学习率self.gamma = gamma  # 折扣因子self.n_action = n_action  # 动作数量# 给每一个状态创建一个长度为4的列表。self.Q_table = np.zeros([nrow*ncol,n_action])  # 初始化Q(s,a)def take_action(self,state):# 选取下一步的操作if np.random.random()<self.epsilon:action = np.random.randint(self.n_action)  # 随机探索else:action = np.argmax(self.Q_table[state])  # 贪婪策略，选择Q值最大的动作return actiondef best_action(self, state):  # 用于打印策略Q_max = np.max(self.Q_table[state])a = [0 for _ in range(self.n_action)]for i in range(self.n_action):if self.Q_table[state, i] == Q_max:a[i] = 1return adef update(self,s0,a0,r,s1):td_error = r+self.gamma*self.Q_table[s1].max()-self.Q_table[s0,a0]self.Q_table[s0, a0] += self.alpha * td_error

ncol = 12
nrow = 4    
np.random.seed(0)
epsilon = 0.1
alpha = 0.1
gamma = 0.9
env = CliffWalkingEnv(ncol, nrow)
agent = QLearning(ncol, nrow, epsilon, alpha, gamma)
num_episodes = 500  # 智能体在环境中运行的序列的数量
return_list = [] # 记录每一条序列的回报
# 显示10个进度条
for i in range(10):# tqdm的进度条功能with tqdm(total=int(num_episodes / 10), desc='Iteration %d' % i) as pbar:for i_episode in range(int(num_episodes / 10)):  # 每个进度条的序列数episode_return = 0state = env.reset()done = Falsewhile not done:action = agent.take_action(state)next_state, reward, done = env.step(action)episode_return += reward  # 这里回报的计算不进行折扣因子衰减agent.update(state, action, reward, next_state)state = next_statereturn_list.append(episode_return)if (i_episode + 1) % 10 == 0:  # 每10条序列打印一下这10条序列的平均回报pbar.set_postfix({'episode':'%d' % (num_episodes / 10 * i + i_episode + 1),'return':'%.3f' % np.mean(return_list[-10:])})pbar.update(1)episodes_list = list(range(len(return_list)))
plt.plot(episodes_list, return_list)
plt.xlabel('Episodes')
plt.ylabel('Returns')
plt.title('Q-learning on {}'.format('Cliff Walking'))
plt.show()action_meaning = ['^', 'v', '<', '>']
print('Q-learning算法最终收敛得到的策略为：')
def print_agent(agent, env, action_meaning, disaster=[], end=[]):for i in range(env.nrow):for j in range(env.ncol):if (i * env.ncol + j) in disaster:print('****', end=' ')elif (i * env.ncol + j) in end:print('EEEE', end=' ')else:a = agent.best_action(i * env.ncol + j)pi_str = ''for k in range(len(action_meaning)):pi_str += action_meaning[k] if a[k] > 0 else 'o'print(pi_str, end=' ')print()action_meaning = ['^', 'v', '<', '>']
print('Sarsa算法最终收敛得到的策略为：')
print_agent(agent, env, action_meaning, list(range(37, 47)), [47])
print_agent(agent, env, action_meaning, list(range(37, 47)), [47])

Iteration 0: 100%|███████████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 2040.03it/s, episode=50, return=-105.700]
Iteration 1: 100%|███████████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 2381.99it/s, episode=100, return=-70.900] 
Iteration 2: 100%|███████████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 3209.35it/s, episode=150, return=-56.500] 
Iteration 3: 100%|███████████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 3541.95it/s, episode=200, return=-46.500] 
Iteration 4: 100%|███████████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 5005.26it/s, episode=250, return=-40.800] 
Iteration 5: 100%|███████████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 3936.76it/s, episode=300, return=-20.400] 
Iteration 6: 100%|███████████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 4892.00it/s, episode=350, return=-45.700] 
Iteration 7: 100%|███████████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 5502.60it/s, episode=400, return=-32.800] 
Iteration 8: 100%|███████████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 6730.49it/s, episode=450, return=-22.700] 
Iteration 9: 100%|███████████████████████████████████████████████████████████████████| 50/50 [00:00<00:00, 6768.50it/s, episode=500, return=-61.700] 
Q-learning算法最终收敛得到的策略为：
Qling算法最终收敛得到的策略为：
^ooo ovoo ovoo ^ooo ^ooo ovoo ooo> ^ooo ^ooo ooo> ooo> ovoo
ooo> ooo> ooo> ooo> ooo> ooo> ^ooo ooo> ooo> ooo> ooo> ovoo
ooo> ooo> ooo> ooo> ooo> ooo> ooo> ooo> ooo> ooo> ooo> ovoo
^ooo **** **** **** **** **** **** **** **** **** **** EEEE
^ooo ovoo ovoo ^ooo ^ooo ovoo ooo> ^ooo ^ooo ooo> ooo> ovoo
ooo> ooo> ooo> ooo> ooo> ooo> ^ooo ooo> ooo> ooo> ooo> ovoo
ooo> ooo> ooo> ooo> ooo> ooo> ooo> ooo> ooo> ooo> ooo> ovoo
^ooo **** **** **** **** **** **** **** **** **** **** EEEE

强化学习10——免模型控制Q-learning算法

Q-learning算法主要思路由于 V π ( s ) ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) V_\pi(s)\sum_{a\in A}\pi(a\mid s)Q_\pi(s,a) Vπ(s)∑a∈Aπ(a∣s)Qπ(s,a) ，当我们直接预测动作价值函数，在决策中选择Q值最大即动作价值最大的动作&…...

编程日记 2024/1/10 10:45:32

【数据库】CRUD常用函数UNION 和 UNION ALL

文章目录一、CRUD二、函数2.1 字符函数 (Character Functions):2.2 数字函数 (Numeric Functions):2.3 日期函数 (Date Functions):2.4 流程控制函数:2.5 聚合函数: 三、UNION 和 UNION ALL3.1 UNION：3.2 UNION ALL3.3 注意事项一、CRUD CRUD 是指数据库操作的四…...

编程日记 2024/1/10 10:44:31

Adding Conditional Control to Text-to-Image Diffusion Models——【论文笔记】

本文发表于ICCV2023 论文地址：ICCV 2023 Open Access Repository (thecvf.com) 官方实现代码：lllyasviel/ControlNet: Let us control diffusion models! (github.com) Abstract 论文提出了一种神经网络架构ControlNet,可以将空间条件控制添加到大型…...

编程日记 2024/1/10 10:41:27

Python与人工智能

Python 是一种广泛用于人工智能（AI）开发的编程语言。Python具有简洁的语法和强大的库支持，使其成为数据科学、机器学习和深度学习的理想选择。 Python中有许多库可以帮助实现人工智能，其中最流行的包括TensorFlow和PyTorch。这些…...

编程日记 2024/1/10 10:39:26

【Docker】Docker基础

文章目录安装使用帮助启动命令镜像命令容器命令安装 # 卸载旧版本 sudo yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest \docker-latest-logrotate \docker-logrotate \docker-engine # 设置存储库 sudo yum install -y yum-utils …...

编程日记 2024/1/10 10:38:25

linux异常情况，排查处理中

登录客户环境后，发现一个奇怪情况如下图，之前也遇到过，直接fuser -ck /backup操作的话，主机将会重启，因数据库运行中，等待停机维护时间，同时也在想办法不重启的情况下解决该问题 [rootdb ~]# f…...

编程日记 2024/1/10 10:35:21

Spring Boot参数校验方案

NotNull：值不能为null；NotEmpty：字符串、集合或数组的值不能为空，即长度大于0；NotBlank：字符串的值不能为空白，即不能只包含空格；Size：字符串、集合或数组的大小是否在指…...

编程日记 2024/1/10 10:29:16

【漏洞复现】ActiveMQ反序列化漏洞(CVE-2015-5254)

Nx01 产品简介 Apache ActiveMQ是Apache软件基金会所研发的开放源代码消息中间件。ActiveMQ是消息队列服务，是面向消息中间件（MOM）的最终实现，它为企业消息传递提供高可用、出色性能、可扩展、稳定和安全保障。 Nx02 漏洞描述 Re…...

编程日记 2024/1/10 10:25:12

面试题：MySQL误删表数据，如何快速恢复丢失的数据？

相信后端研发的同学在开发过程经常会遇到产品临时修改线上数据的需求，如果手法很稳那么很庆幸可以很快完成任务，很不幸某一天突然手一抖把表里的数据修改错误或者误删了，这个时候你会发现各种问题反馈接踵而来。如果身边有BDA或者有这方面经…...

编程日记 2024/1/10 10:24:10

李沐之神经网络基础

目录 1.模型构造 1.1层和块 1.2自定义块 1.3顺序块 1.4在前向传播函数中执行代码 2.参数管理 2.1参数访问 2.2参数初始化 3.自定义层 3.1不带参数的层 3.2带参数的层 4.读写文件 4.1加载和保存张量 4.2加载和保存模型参数 1.模型构造 1.1层和块 import torch fr…...

编程日记 2024/1/10 10:23:10

【docker】使用 Dockerfile 构建镜像

一、什么是Dockerfile Dockerfile 是用于构建 Docker 镜像的文本文件。它包含了一系列的指令，用于描述如何构建镜像的步骤和配置。通过编写 Dockerfile，您可以定义镜像的基础环境、安装软件包、复制文件、设置环境变量等操作。Dockerfile 提供了一种可…...

编程日记 2024/1/10 10:22:09

计算机网络—— 概述

概述 1.1 因特网概述网络、互联网和因特网网络由若干结点和连接这些结点的链路组成多个网络还可以通过路由器互联起来，这样就构成了一个覆盖范围更大的网络，即互联网（或互连网）。因特网（Internet）是世…...

编程日记 2024/1/10 10:18:05

“超人练习法”系列06：如何更好地掌握技能？

01 掌握的阶段关于人类学习新事物的最生动、最精妙的比喻，我是从笑来老师那里学到的。他指出，学习新知识、新概念犹如在构建自己大脑皮层，每个习得的概念就像是大脑皮层上的一个个微小神经元。一个看似聪明、博学的人，总能在各…...

编程日记 2024/1/10 10:14:01

【华为OD机试真题2023CD卷 JAVAJS】字符串拼接

华为OD2023（C&D卷）机试题库全覆盖，刷题指南点这里字符串拼接知识点数组递归时间限制：1s 空间限制：256MB 限定语言：不限题目描述：给定M(0<M<=30)个字符（a-z），从中取出任意字符（每个字符只能用一次）拼接成长度为N(0<N<=5)的字符串，要求相同的字…...

编程日记 2024/1/10 10:13:00

【算法】链表-20240109

这里写目录标题一、141. 环形链表二、876. 链表的中间结点三、面试题 02.01. 移除重复节点一、141. 环形链表简单给你一个链表的头节点 head ，判断链表中是否有环。如果链表中有某个节点，可以通过连续跟踪 next 指针再次到达，则链表中…...

编程日记 2024/1/10 10:11:59

机器学习系列--R语言随机森林进行生存分析（2）

随机森林（Breiman 2001a）（RF）是一种非参数统计方法，需要没有关于响应的协变关系的分布假设。RF是一种强大的、非线性的技术，通过拟合一组树来稳定预测精度模型估计。随机生存森林（RSF&#xff0…...

编程日记 2024/1/10 10:08:56

Flutter GetX 之状态管理

上一篇文章为大家介绍了 GetX的路由管理，让大家对GetX有了初步了解，今天为大家介绍一下GetX的状态管理。 StatelessWidget 和 StatefulWidget 介绍在介绍之前，先简单介绍一下 Flutter 页面的 StatelessWidget 和 StatefulWidget ，其实Flutter的本质是万物都是Widget，…...

编程日记 2024/1/10 10:07:56

e2studio开发磁力计LIS2MDL(1)----轮询获取磁力计数据

e2studio开发磁力计LIS2MDL.1--轮询获取磁力计数据概述视频教学样品申请源码下载速率新建工程工程模板保存工程路径芯片配置工程模板选择时钟设置UART配置UART属性配置设置e2studio堆栈e2studio的重定向printf设置R_SCI_UART_Open()函数原型回调函数user_uart_callback ()prin…...

编程日记 2024/1/10 10:05:54

C++ 字符串大小写转换，替换，文件保存方法封装

此示例程序方法已经封装好使用std::islower()函数可以检查一个字符是否是小写字母，使用std::isupper()函数可以检查一个字符是否是大写字母。如果传入的字母是小写字母，则使用std::toupper()函数将其转换为大写字母，并输出转换后的结果。如果输入的字母是大写字母，则使…...

编程日记 2024/1/10 10:03:52

计算机基础面试题 |19.精选计算机基础面试题

🤍 前端开发工程师（主业）、技术博主（副业）、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…...

编程日记 2024/1/10 10:02:51

mysql 添加用户并分配select权限

1.root用户先登录或者在可执行界面 1.1 选择mysql 点击mysql 或者在命令行 use mysql 1.2创建用户 CREATE USER username% IDENTIFIED BY password; 备注1：%替换为可访问数据库的ip，例如“127.0.0.1”“192.168.1.1”，使用“%”表示不限制…...

编程日记 2024/1/10 10:01:50

重新认识canvas，掌握必要的联结密码

查看专栏目录 canvas示例教程100专栏，提供canvas的基础知识，高级动画，相关应用扩展等信息。canvas作为html的一部分，是图像图标地图可视化的一个重要的基础，学好了canvas，在其他的一些应用上将会起到非常重…...

编程日记 2024/1/10 10:00:49

Linux第21步_取消鼠标中键的复制粘贴功能

在ubuntu18.04操作系统中，选中文本后，若按下鼠标中键，就可以执行复制粘贴，相当于 CtrlshiftC 后又按了 CtrlshiftV。在Linux系统中，基本上都是这么配置的。在windows系统中，我们习惯用Ctrl-C复制&#xff0…...

编程日记 2024/1/10 9:59:49

数学建模-Matlab R2022a安装步骤

软件介绍 MATLAB是一款商业数学软件，用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境，主要包括MATLAB和Simulink两大部分，可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程…...

编程日记 2024/1/10 9:58:47

【AI】Pytorch 系列：学习率设置

a. 有序调整：等间隔调整(Step)，按需调整学习率(MultiStep)，指数衰减调整(Exponential)和余弦退火CosineAnnealing。 b. 自适应调整：自适应调整学习率 ReduceLROnPlateau。 c. 自定义调整：自定义调整学习率 LambdaLR。 #得到当前学习率 lr = next(iter(optimizer.param_gr…...

编程日记 2024/1/10 9:57:46

LeetCode第107题 - 二叉树的层序遍历 II

题目解答 class Solution {List<List<Integer>> nodeLevels new LinkedList<>();public List<List<Integer>> levelOrderBottom(TreeNode root) {levelOrder(root, 0);List<List<Integer>> nodeLevels2 new LinkedList<>…...

编程日记 2024/1/10 9:56:45

java 常⽤的线程池模式FixedThreadPool

java 常⽤的线程池模式FixedThreadPool 线程池中的线程数量是固定的。当提交一个新任务时，如果线程池中的线程都在运行，新任务就会被放入任务队列中等待执行。如果线程池中的所有线程都在运行，且任务队列已满，那么线程池会创建新…...

编程日记 2024/1/10 9:55:43

双机调度算法

假设当前有两个处理机A、B，以及n个待处理的任务。第i个任务在处理处理机A上处理需要的时间为ai，在处理机B上处理的时间为bi，两个处理机可以并行处理任务，但单个处理机不能同时执行任务。要求给定n个任务及各个任务对应的ai 、bi&a…...

编程日记 2024/1/10 9:54:43

精进单元测试技能——Pytest断言的艺术

本篇文章主要是阐述Pytest在断言方面的应用。让大家能够了解和掌握Pytest针对断言设计了多种功能以适应在不同测试场景上使用。了解断言的基础在Pytest中，断言是通过 assert 语句来实现的。简单的断言通常用于验证预期值和实际值是否相等，例如&#xf…...

编程日记 2024/1/10 9:52:41

探索人工智能：深度学习、人工智能安全和人工智能

深度学习是人工智能的一种重要技术，它模拟了人类大脑神经网络的工作原理，通过建立多层次的神经元网络来实现对数据的分析和处理。这种技术的引入使得人工智能的发展进入到了一个新的阶段。现如今，深度学习在各个领域都有着广泛的应用。例如…...

编程日记 2024/1/10 9:50:38

Q-learning算法

主要思路

算法实战

相关文章：