当前位置：首页 > news >正文

RL学习笔记-马尔可夫过程

news 2026/2/8 17:16:42

参考资料：蘑菇书、周博磊老师课程

在强化学习中，智能体与环境交互是通过马尔可夫决策过程来表示的，因此马尔可夫决策过程是强化学习的基本框架。

马尔可夫性质

指一个随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态。如下：s代表状态，h代表历史所有状态。

马尔可夫过程与马尔科夫链

马尔可夫过程是一组具有马尔可夫性质的随机变量序列，其中下一个时刻的状态只取决于当前状态。

离散时间的马尔可夫过程也称为马尔可夫链（Markov chain）。

马尔科夫奖励过程（MRP）

马尔可夫奖励过程（Markov reward process, MRP）是马尔可夫链加上奖励函数。奖励函数 R是一个期望，表示当我们到达某一个状态的时候，可以获得多大的奖励。另外还定义了折扣因子，以控制未来的奖励对当前价值的影响。

回报与价值

回报：当前状态 t 的回报Gt表示未来T个时刻的奖励的叠加（同时要乘上折扣因子），折扣因子通常作为超参数学习。

价值：回报的期望

贝尔曼方程

         价值是回报的期望，那么求 St 状态的价值就可以从St 开始生成很多条轨迹，然后求回报，最后对回报求均值。

贝尔曼方程是另一种求价值的方法，也由价值是回报的期望那条公式推导出来的，定义了当前状态与未来状态的关系：



        把贝尔曼方程写成矩阵形式，可以求得一个解析解，但是当矩阵太大时，解析解就不好使了，复杂度太高。

马尔可夫决策过程（MDP）

相对于马尔可夫奖励过程，马尔可夫决策过程多了决策（决策是指动作），其他的定义与马尔可夫奖励过程的是类似的。

马尔可夫决策过程中的策略

策略定义了在某一个状态应该采取什么样的动作。知道当前状态后，我们可以把当前状态代入策略函数来得到一个特定动作的概率。策略函数Π

马尔可夫决策过程和马尔可夫奖励过程的转换与区别

决策过程：下一状态同时受当前状态和当前状态中所采取的动作影响。

奖励过程：下一状态只受当前状态影响。

那么将决策过程当前状态所可能执行的所有动作的概率求和，即变成了奖励过程的状态转移函数：

区别：左：奖励过程右：决策过程

马尔可夫决策过程的价值函数

        决策过程的价值函数定义为：

        注意下标π，表示这里的价值函数仅在当前策略函数下生效，即对当前策略进行采样，来得到一个期望。因为前面说过，决策过程同时受状态和动作的影响，换一套策略函数，Gt中未来的状态可能就发生了变化。

        另外引入了一个 Q 函数（Q-function）。Q 函数也被称为动作价值函数（action-value function）。Q 函数定义的是在某一个状态采取某一个动作，它有可能得到的回报的一个期望，即

        Q函数即把价值函数中对策略函数使用动作采样，变成对一个特定动作采样。

        所以Q函数对该策略下所有的动作情况求和，就等于该策略下的价值函数：

贝尔曼期望方程

对把价值函数写成贝尔曼方程右侧的形式，然后对所有策略的价值函数求期望，注意是对所有策略的期望。

对Q函数也可以做此操作，得到Q函数的贝尔曼期望方程：

通过化简可得到当前状态价值和未来价值的关系，以及当前Q和未来Q的关系：

策略评估（预测）

已知马尔可夫过程和当前的策略 π，计算价值函数，就是策略评估。也就是当前采取的策略有多大的价值。

预测与控制

预测：（评估一个给定的策略），输入是马尔可夫决策过程 <S,A,P,R,γ>和策略 π，输出是价值函数 Vπ。

控制：（搜索最佳策略），输入是马尔可夫决策过程 <S,A,P,R,γ>，输出是最佳价值函数（optimal value function）V∗ 和最佳策略（optimal policy）π∗。

预测和控制是马尔可夫决策过程里的核心问题。在强化学习中，通过解决预测问题，进而解决控制问题。

策略迭代与价值迭代

策略迭代和价值迭代都是解决马尔可夫决策过程的控制问题的方法。

策略迭代

由两个步骤组成：策略评估和策略改进。

策略评估：即对当前的策略计算价值V。

策略改进：根据价值V求Q函数，求使得Q函数最大的策略（作为新策略），然后可以重复策略评估步骤，计算新策略下的价值函数。

若新策略的价值与当前策略的价值之间变化不大，则迭代结束。

结束后取最后一次Q函数的极大化的动作，即得到最优价值函数，下面的方程也叫贝尔曼最优方程：

贝尔曼最优方程表明：最佳策略下的一个状态的价值必须等于在这个状态下采取最好动作得到的回报的期望。 当马尔可夫决策过程满足贝尔曼最优方程的时候，整个马尔可夫决策过程已经达到最佳的状态。

价值迭代

把贝尔曼方程拿来取使得价值最大的动作，进行迭代。

迭代过程：

策略迭代和价值迭代的区别

策略迭代是不断地通过计算价值，计算Q函数，取使得Q函数最大的动作来更新策略，重复的过程中每次都有做更新策略的操作。而价值迭代在迭代过程中只计算Q函数，然后通过取最大化Q函数来更新价值函数，直到收敛后再去求在最大价值下的策略。

RL学习笔记-马尔可夫过程

参考资料：蘑菇书、周博磊老师课程在强化学习中，智能体与环境交互是通过马尔可夫决策过程来表示的，因此马尔可夫决策过程是强化学习的基本框架。马尔可夫性质指一个随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件…...

编程日记 2024/10/27 11:17:52

LeetCode Hot 100：动态规划 70. 爬楼梯 class Solution { public:int climbStairs(int n) {if (n 0)return 0;vector<int> dp(n 1);// 初始化dp[0] 1;// 状态转移for (int i 1; i < n; i) {dp[i] dp[i - 1];if (i > 2)dp[i] dp[i - 2];}return …...

编程日记 2024/10/27 11:15:48

使用Python制作雪景图片教程

如果你想用Python写一个程序来输出有关“深夜雪”的诗意文本或描述，可以通过简单的字符串输出来实现。以下是一个示例代码，展示如何用Python来描绘深夜雪的场景。 # 定义深夜雪的描述 description """ 夜幕降临，天空洒下银色…...

编程日记 2024/10/27 11:14:47

S-Function

目录 S-Function介绍生成S-Function的三种常用手段使用手写S-函数合并定制代码使用S-Function Builder块合并定制代码使用代码继承工具合并定制代码 S-Function介绍我们可以使用S-Function扩展Simulink对仿真和代码生成的支持。例如，可以使用它们&#xf…...

编程日记 2024/10/27 11:13:45

如何具备阅读JAVA JDK虚拟机源码能力

源码位置https://github.com/openjdk/jdk 核心实现源码[部分截图] /* * Copyright (c) 1995, 2024, Oracle and/or its affiliates. All rights reserved. * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER. * * This code is free software; you can redistr…...

编程日记 2024/10/27 11:12:44

Python | Leetcode Python题解之第514题自由之路

题目： 题解： Test "godding" target "d"i 0left i lc 0 right i rc 0while Test[left] ! target:left - 1lc 1if left -1:left len(Test) - 1while Test[right] ! target:right 1rc 1if right len(Test):right 0prin…...

编程日记 2024/10/27 11:08:41

Docker 镜像下载问题及解决办法

Docker 镜像下载问题及解决办法我在杂乱的、破旧的村庄寂寞地走过漫长的雨季，将我年少的眼光从晦暗的日子里打捞出来的是一棵棵开花的树，它们以一串串卓然不俗的花擦明了我的眼睛，也洗净了我的灵魂。引言在使用 Docker 时，用户…...

编程日记 2024/10/27 11:07:36

2分钟搞定 HarmonyOs Next创建模拟器

官方文档参考链接： 创建模拟器-管理模拟器-使用模拟器运行应用/服务-应用/服务运行-DevEco Studio - 华为HarmonyOS开发者https://developer.huawei.com/consumer/cn/doc/harmonyos-guides-V5/ide-emulator-create-V5 1. 首先打开Device Manager 2. 进入这个界面后…...

编程日记 2024/10/27 11:06:30

方形件排样优化与订单组批问题探析

方形件排样优化与订单组批问题是计算复杂度很高的组合优化问题，在工业工程中有很广泛的应用背景。为实现个性化定制生产模式，企业会选择订单组批的方式，继而通过排样优化实现批量切割，加工完成后再按照不同客户需求进行分拣&#…...

编程日记 2024/10/27 11:05:28

vue3组件通信--自定义事件

自定义事件是典型的子传父的方法。为什么叫自定义事件呢？是因为我们用sendToy"getToy"这种格式写，很显然，在DOM中，没有叫sendToy的事件。父组件FatherComponent.vue: <script setup> import ChildComponent fr…...

编程日记 2024/10/27 11:04:26

ubuntu 安装k3s

配置hostname的方法为 hostnamectl set-hostname k3sserver hostnamectlsudo apt-get update && sudo apt-get upgrade -y sudo apt-get install -y curl#手动下载v1.31.1k3s1 https://github.com/k3s-io/k3s/releases/tag/v1.31.1%2Bk3s1 #将k3s-airgap-images-amd64…...

编程日记 2024/10/27 11:02:24

SQL CHECK 约束：确保数据完整性的关键

SQL CHECK 约束：确保数据完整性的关键在数据库管理中，确保数据的完整性和准确性是至关重要的。SQL（Structured Query Language）提供了多种约束条件来帮助实现这一目标，其中之一就是 CHECK 约束。本文将深入探讨 SQL CHECK 约束的概念、用法和优势，并展示如何在不同的数…...

编程日记 2024/10/27 11:00:21

C++ | Leetcode C++题解之第502题IPO

题目： 题解： typedef pair<int,int> pii;class Solution { public:int findMaximizedCapital(int k, int w, vector<int>& profits, vector<int>& capital) {int n profits.size();int curr 0;priority_queue<int, vect…...

编程日记 2024/10/27 10:58:17

《虚拟现实的边界：探索虚拟世界的未来可能》

内容概要在虚拟现实（VR）技术的浪潮中，我们见证了其从实验室的奇想逐渐走向日常生活的非凡旅程。技术发展的背后是不断突破的创新，早期的设备虽然笨重，但如今却趋向精致、轻巧，用户体验显著提升。想象一下…...

编程日记 2024/10/27 10:56:15

Rust教程

2024 Rust现代实用教程：1.1Rust简介与安装更新––2024 Rust现代实用教程：1.2编译器与包管理工具以及开发环境–––––––––––...

编程日记 2024/10/27 10:54:13

测试代理IP的有效性和可用性

使用代理IP的有效性和可用性直接关系到用户的工作效率，尤其是在进行数据抓取、网络爬虫和保护个人隐私等场景中。一、测试代理IP的必要性代理IP的可用性测试是确保代理服务正常运行的重要步骤。测试代理IP的必要性主要体现在以下几个方面： 提升工作…...

编程日记 2024/10/27 10:52:12

散列表：为什么经常把散列表和链表放在一起使用？

散列表：为什么经常把散列表和链表放在一起使用？在计算机科学中，散列表（哈希表）和链表是两种常见的数据结构。你可能会好奇，为什么它们经常被放在一起使用呢？让我们一起来深入探讨这个问题。一、散列表的特点散列表是一种根据关键码值（Key value）而直接进行访问的…...

编程日记 2024/10/27 10:51:11

计算机网络：网络层 —— IPv4 地址与 MAC 地址 | ARP 协议

文章目录 IPv4地址与MAC地址的封装位置IPv4地址与MAC地址的关系地址解析协议ARP工作原理ARP高速缓存表 IPv4地址与MAC地址的封装位置在数据传输过程中，每一层都会添加自己的头部信息，最终形成完整的数据包。具体来说： 应用层生成的应用程序…...

编程日记 2024/10/27 10:49:10

PMP--一、二、三模、冲刺、必刷--分类--10.沟通管理--技巧--文化意识

文章目录技巧一模10.沟通管理--1.规划沟通管理--文化意识--军事背景和非军事背景人员有文化差异文化意识：题干关键词 “两拨人的背景不同、文化差异、风格差异”。5、 [单选] 项目团队由前军事和非军事小组成员组成。没有军事背景的团队成员认为前军事团队成员在他…...

编程日记 2024/10/27 10:47:07

FileReader和FileWriter

FileReader 使用read()方法读取单个字符，下面是如何修改使程序性能更好的过程。第一种：处理异常方式为throws Testpublic void test() throws IOException {//读取hello.txt，并显示内容// 创建文件对象File file new File("hello.txt…...

编程日记 2024/10/27 10:45:05

使用van-uploader 的UI组件，结合vue2如何实现图片上传组件的封装

以下是基于 vant-ui（适配 Vue2 版本 ）实现截图中照片上传预览、删除功能，并封装成可复用组件的完整代码，包含样式和逻辑实现，可直接在 Vue2 项目中使用： 1. 封装的图片上传组件 ImageUploader.vue <te…...

编程新知 2026/1/31 2:37:22

反射获取方法和属性

Java反射获取方法在Java中，反射（Reflection）是一种强大的机制，允许程序在运行时访问和操作类的内部属性和方法。通过反射，可以动态地创建对象、调用方法、改变属性值，这在很多Java框架中如Spring和Hiberna…...

编程新知 2025/11/9 2:57:17

SAP学习笔记 - 开发26 - 前端Fiori开发 OData V2 和 V4 的差异 (Deepseek整理）

上一章用到了V2 的概念，其实 Fiori当中还有 V4，咱们这一章来总结一下 V2 和 V4。 SAP学习笔记 - 开发25 - 前端Fiori开发 Remote OData Service(使用远端Odata服务)，代理中间件（ui5-middleware-simpleproxy）-CSDN博客…...

编程新知 2026/2/3 8:20:06

深度学习习题2

1.如果增加神经网络的宽度，精确度会增加到一个特定阈值后，便开始降低。造成这一现象的可能原因是什么？ A、即使增加卷积核的数量，只有少部分的核会被用作预测 B、当卷积核数量增加时，神经网络的预测能力会降低 C、当卷…...

编程新知 2026/1/26 5:53:30

安宝特方案丨船舶智造的“AR+AI+作业标准化管理解决方案”（装配）

船舶制造装配管理现状：装配工作依赖人工经验，装配工人凭借长期实践积累的操作技巧完成零部件组装。企业通常制定了装配作业指导书，但在实际执行中，工人对指导书的理解和遵循程度参差不齐。船舶装配过程中的挑战与需求挑战 (1…...

编程新知 2026/2/6 2:16:18

uniapp手机号一键登录保姆级教程（包含前端和后端）

目录前置条件创建uniapp项目并关联uniClound云空间开启一键登录模块并开通一键登录服务编写云函数并上传部署获取手机号流程(第一种) 前端直接调用云函数获取手机号（第三种）后台调用云函数获取手机号错误码常见问题前置条件手机安装有sim卡手机开启…...

编程新知 2026/1/27 2:03:36

MySQL：分区的基本使用

目录一、什么是分区二、有什么作用三、分类四、创建分区五、删除分区一、什么是分区 MySQL 分区（Partitioning）是一种将单张表的数据逻辑上拆分成多个物理部分的技术。这些物理部分（分区）可以独立存储、管理和优化，…...

编程新知 2026/2/2 18:52:32

论文阅读：LLM4Drive: A Survey of Large Language Models for Autonomous Driving

地址：LLM4Drive: A Survey of Large Language Models for Autonomous Driving 摘要翻译自动驾驶技术作为推动交通和城市出行变革的催化剂，正从基于规则的系统向数据驱动策略转变。传统的模块化系统受限于级联模块间的累积误差和缺乏灵活性的预设规则。…...

编程新知 2026/2/4 4:39:19

消息队列系统设计与实践全解析

文章目录 🚀 消息队列系统设计与实践全解析🔍 一、消息队列选型1.1 业务场景匹配矩阵1.2 吞吐量/延迟/可靠性权衡💡 权衡决策框架 1.3 运维复杂度评估🔧 运维成本降低策略 🏗️ 二、典型架构设计2.1 分布式事务最终一致…...

编程新知 2026/2/5 4:20:53

Mysql故障排插与环境优化

前置知识点最上层是一些客户端和连接服务，包含本 sock 通信和大多数jiyukehuduan/服务端工具实现的TCP/IP通信。主要完成一些简介处理、授权认证、及相关的安全方案等。在该层上引入了线程池的概念，为通过安全认证接入的客户端提供线程。同样在该层上可…...

编程新知 2026/2/2 0:43:41

马尔可夫性质

马尔可夫过程 与 马尔科夫链

马尔科夫奖励过程（MRP）

回报 与 价值

贝尔曼方程

马尔可夫决策过程（MDP）

马尔可夫决策过程中的策略

马尔可夫决策过程和马尔可夫奖励过程的转换 与 区别

马尔可夫决策过程的价值函数

贝尔曼期望方程

策略评估（预测）

预测 与 控制

策略迭代 与 价值迭代

策略迭代

价值迭代

策略迭代和价值迭代的区别

相关文章：

马尔可夫过程与马尔科夫链

回报与价值

马尔可夫决策过程和马尔可夫奖励过程的转换与区别

预测与控制

策略迭代与价值迭代