RL学习笔记-马尔可夫过程
参考资料:蘑菇书、周博磊老师课程
在强化学习中,智能体与环境交互是通过马尔可夫决策过程来表示的,因此马尔可夫决策过程是强化学习的基本框架。
马尔可夫性质
指一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态。如下:s代表状态,h代表历史所有状态。
马尔可夫过程 与 马尔科夫链
马尔可夫过程是一组具有马尔可夫性质的随机变量序列,其中下一个时刻的状态只取决于当前状态。
离散时间的马尔可夫过程也称为马尔可夫链(Markov chain)。
马尔科夫奖励过程(MRP)
马尔可夫奖励过程(Markov reward process, MRP)是马尔可夫链加上奖励函数。奖励函数 R是一个期望,表示当我们到达某一个状态的时候,可以获得多大的奖励。另外还定义了折扣因子,以控制未来的奖励对当前价值的影响。
回报 与 价值
回报:当前状态 t 的回报Gt表示未来T个时刻的奖励的叠加(同时要乘上折扣因子),折扣因子通常作为超参数学习。
价值:回报的期望
贝尔曼方程
价值是回报的期望,那么求 St 状态的价值就可以从St 开始生成很多条轨迹,然后求回报,最后对回报求均值。
贝尔曼方程是另一种求价值的方法,也由价值是回报的期望那条公式推导出来的,定义了当前状态与未来状态的关系:
把贝尔曼方程写成矩阵形式,可以求得一个解析解,但是当矩阵太大时,解析解就不好使了,复杂度太高。
马尔可夫决策过程(MDP)
相对于马尔可夫奖励过程,马尔可夫决策过程多了决策(决策是指动作),其他的定义与马尔可夫奖励过程的是类似的。
马尔可夫决策过程中的策略
策略定义了在某一个状态应该采取什么样的动作。知道当前状态后,我们可以把当前状态代入策略函数来得到一个特定动作的概率。策略函数Π
马尔可夫决策过程和马尔可夫奖励过程的转换 与 区别
决策过程:下一状态同时受当前状态和当前状态中所采取的动作影响。
奖励过程:下一状态只受当前状态影响。
那么将决策过程当前状态所可能执行的所有动作的概率求和,即变成了奖励过程的状态转移函数:
区别:左:奖励过程 右:决策过程
马尔可夫决策过程的价值函数
决策过程的价值函数定义为:
注意下标π,表示这里的价值函数仅在当前策略函数下生效,即对当前策略进行采样,来得到一个期望。因为前面说过,决策过程同时受状态和动作的影响,换一套策略函数,Gt中未来的状态可能就发生了变化。
另外引入了一个 Q 函数(Q-function)。Q 函数也被称为动作价值函数(action-value function)。Q 函数定义的是在某一个状态采取某一个动作,它有可能得到的回报的一个期望,即
Q函数即把价值函数中对策略函数使用动作采样,变成对一个特定动作采样。
所以Q函数对该策略下所有的动作情况求和,就等于该策略下的价值函数:
贝尔曼期望方程
对把价值函数写成贝尔曼方程右侧的形式,然后对所有策略的价值函数求期望,注意是对所有策略的期望。
对Q函数也可以做此操作,得到Q函数的贝尔曼期望方程:
通过化简可得到当前状态价值和未来价值的关系,以及当前Q和未来Q的关系:
策略评估(预测)
已知马尔可夫过程和当前的策略 π,计算价值函数,就是策略评估。也就是当前采取的策略有多大的价值。
预测 与 控制
预测:(评估一个给定的策略),输入是马尔可夫决策过程 <S,A,P,R,γ>和策略 π,输出是价值函数 Vπ。
控制:(搜索最佳策略),输入是马尔可夫决策过程 <S,A,P,R,γ>,输出是最佳价值函数(optimal value function)V∗ 和最佳策略(optimal policy)π∗。
预测和控制是马尔可夫决策过程里的核心问题。在强化学习中,通过解决预测问题,进而解决控制问题。
策略迭代 与 价值迭代
策略迭代和价值迭代都是解决马尔可夫决策过程的控制问题的方法。
策略迭代
由两个步骤组成:策略评估和策略改进。
策略评估:即对当前的策略计算价值V。
策略改进:根据价值V求Q函数,求使得Q函数最大的策略(作为新策略),然后可以重复策略评估步骤,计算新策略下的价值函数。
若新策略的价值与当前策略的价值之间变化不大,则迭代结束。
结束后取最后一次Q函数的极大化的动作,即得到最优价值函数,下面的方程也叫贝尔曼最优方程:
贝尔曼最优方程表明:最佳策略下的一个状态的价值必须等于在这个状态下采取最好动作得到的回报的期望。 当马尔可夫决策过程满足贝尔曼最优方程的时候,整个马尔可夫决策过程已经达到最佳的状态。
价值迭代
把贝尔曼方程拿来取使得价值最大的动作,进行迭代。
迭代过程:
策略迭代和价值迭代的区别
策略迭代是不断地通过计算价值,计算Q函数,取使得Q函数最大的动作来更新策略,重复的过程中每次都有做更新策略的操作。而价值迭代在迭代过程中只计算Q函数,然后通过取最大化Q函数来更新价值函数,直到收敛后再去求在最大价值下的策略。
相关文章:
RL学习笔记-马尔可夫过程
参考资料:蘑菇书、周博磊老师课程 在强化学习中,智能体与环境交互是通过马尔可夫决策过程来表示的,因此马尔可夫决策过程是强化学习的基本框架。 马尔可夫性质 指一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件…...
LeetCode Hot 100:动态规划
LeetCode Hot 100:动态规划 70. 爬楼梯 class Solution { public:int climbStairs(int n) {if (n 0)return 0;vector<int> dp(n 1);// 初始化dp[0] 1;// 状态转移for (int i 1; i < n; i) {dp[i] dp[i - 1];if (i > 2)dp[i] dp[i - 2];}return …...
使用Python制作雪景图片教程
如果你想用Python写一个程序来输出有关“深夜雪”的诗意文本或描述,可以通过简单的字符串输出来实现。以下是一个示例代码,展示如何用Python来描绘深夜雪的场景。 # 定义深夜雪的描述 description """ 夜幕降临,天空洒下银色…...
S-Function
目录 S-Function介绍 生成S-Function的三种常用手段 使用手写S-函数合并定制代码 使用S-Function Builder块合并定制代码 使用代码继承工具合并定制代码 S-Function介绍 我们可以使用S-Function扩展Simulink对仿真和代码生成的支持。例如,可以使用它们…...
如何具备阅读JAVA JDK虚拟机源码能力
源码位置https://github.com/openjdk/jdk 核心实现源码[部分截图] /* * Copyright (c) 1995, 2024, Oracle and/or its affiliates. All rights reserved. * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS FILE HEADER. * * This code is free software; you can redistr…...
Python | Leetcode Python题解之第514题自由之路
题目: 题解: Test "godding" target "d"i 0left i lc 0 right i rc 0while Test[left] ! target:left - 1lc 1if left -1:left len(Test) - 1while Test[right] ! target:right 1rc 1if right len(Test):right 0prin…...
Docker 镜像下载问题及解决办法
Docker 镜像下载问题及解决办法 我在杂乱的、破旧的村庄寂寞地走过漫长的雨季,将我年少的眼光从晦暗的日子里打捞出来的是一棵棵开花的树,它们以一串串卓然不俗的花擦明了我的眼睛,也洗净了我的灵魂。 引言 在使用 Docker 时,用户…...
2分钟搞定 HarmonyOs Next创建模拟器
官方文档参考链接: 创建模拟器-管理模拟器-使用模拟器运行应用/服务-应用/服务运行-DevEco Studio - 华为HarmonyOS开发者https://developer.huawei.com/consumer/cn/doc/harmonyos-guides-V5/ide-emulator-create-V5 1. 首先打开Device Manager 2. 进入这个界面后…...
方形件排样优化与订单组批问题探析
方形件排样优化与订单组批问题是计算复杂度很高的组合优化问题,在工业工程中有很广泛的应用背景。为实现个性化定制生产模式,企业会选择订单组批的方式,继而通过排样优化实现批量切割,加工完成后再按照不同客户需求进行分拣&#…...
vue3组件通信--自定义事件
自定义事件是典型的子传父的方法。 为什么叫自定义事件呢?是因为我们用sendToy"getToy"这种格式写,很显然,在DOM中,没有叫sendToy的事件。 父组件FatherComponent.vue: <script setup> import ChildComponent fr…...
ubuntu 安装k3s
配置hostname的方法为 hostnamectl set-hostname k3sserver hostnamectlsudo apt-get update && sudo apt-get upgrade -y sudo apt-get install -y curl#手动下载v1.31.1k3s1 https://github.com/k3s-io/k3s/releases/tag/v1.31.1%2Bk3s1 #将k3s-airgap-images-amd64…...
SQL CHECK 约束:确保数据完整性的关键
SQL CHECK 约束:确保数据完整性的关键 在数据库管理中,确保数据的完整性和准确性是至关重要的。SQL(Structured Query Language)提供了多种约束条件来帮助实现这一目标,其中之一就是 CHECK 约束。本文将深入探讨 SQL CHECK 约束的概念、用法和优势,并展示如何在不同的数…...
C++ | Leetcode C++题解之第502题IPO
题目: 题解: typedef pair<int,int> pii;class Solution { public:int findMaximizedCapital(int k, int w, vector<int>& profits, vector<int>& capital) {int n profits.size();int curr 0;priority_queue<int, vect…...
《虚拟现实的边界:探索虚拟世界的未来可能》
内容概要 在虚拟现实(VR)技术的浪潮中,我们见证了其从实验室的奇想逐渐走向日常生活的非凡旅程。技术发展的背后是不断突破的创新,早期的设备虽然笨重,但如今却趋向精致、轻巧,用户体验显著提升。想象一下…...
Rust教程
2024 Rust现代实用教程:1.1Rust简介与安装更新––2024 Rust现代实用教程:1.2编译器与包管理工具以及开发环境–––––––––––...
测试代理IP的有效性和可用性
使用代理IP的有效性和可用性直接关系到用户的工作效率,尤其是在进行数据抓取、网络爬虫和保护个人隐私等场景中。 一、测试代理IP的必要性 代理IP的可用性测试是确保代理服务正常运行的重要步骤。测试代理IP的必要性主要体现在以下几个方面: 提升工作…...
散列表:为什么经常把散列表和链表放在一起使用?
散列表:为什么经常把散列表和链表放在一起使用? 在计算机科学中,散列表(哈希表)和链表是两种常见的数据结构。你可能会好奇,为什么它们经常被放在一起使用呢?让我们一起来深入探讨这个问题。 一、散列表的特点 散列表是一种根据关键码值(Key value)而直接进行访问的…...
计算机网络:网络层 —— IPv4 地址与 MAC 地址 | ARP 协议
文章目录 IPv4地址与MAC地址的封装位置IPv4地址与MAC地址的关系地址解析协议ARP工作原理ARP高速缓存表 IPv4地址与MAC地址的封装位置 在数据传输过程中,每一层都会添加自己的头部信息,最终形成完整的数据包。具体来说: 应用层生成的应用程序…...
PMP--一、二、三模、冲刺、必刷--分类--10.沟通管理--技巧--文化意识
文章目录 技巧一模10.沟通管理--1.规划沟通管理--文化意识--军事背景和非军事背景人员有文化差异文化意识:题干关键词 “两拨人的背景不同、文化差异、风格差异”。5、 [单选] 项目团队由前军事和非军事小组成员组成。没有军事背景的团队成员认为前军事团队成员在他…...
FileReader和FileWriter
FileReader 使用read()方法读取单个字符,下面是如何修改使程序性能更好的过程。 第一种:处理异常方式为throws Testpublic void test() throws IOException {//读取hello.txt,并显示内容// 创建文件对象File file new File("hello.txt…...
【UE5】将2D切片图渲染为体积纹理,最终实现使用RT实时绘制体积纹理【第六篇-阶段总结篇】
因为马上就要进入下一个阶段,制作动态编辑体积纹理的模块。 但在这之前,要在这一章做最后一些整理。 首先,我们完成没完成的部分。其次,最后整理一下图表。最后,本文附上正在用的贴图 完善Shader 还记得我们之前注…...
地球村上一些可能有助于赚钱的20个思维方式
地球村上一些可能有助于赚钱的20个思维方式: 1. 目标导向思维:明确自己的财务目标,并制定详细、可执行的计划来逐步实现。 2. 创新思维:不断寻求新的商业机会和独特的解决方案,以在竞争激烈的市场中脱颖而出。 3. 价值…...
0基础入门matlab
目录 一、命令 二、变量命名 三、数据类型 数字 字符和字符串 矩阵 rand、randi和randn的区别? 元胞数组和结构体 MAGIC 结构体 四、矩阵构造、四则运算、矩阵下标 五、MATLAB逻辑与流程控制 六、MATLAB绘图 二维平面绘图 三维平面绘图 导出图片 内…...
【前端】实操tips集合
1. 关闭vue中组件名字的多词校验 (1) package.json文件中修改eslint配置 "eslintConfig": {"rules": {"vue/multi-word-component-names":"off" }}, (2).eslintrc.js或者.eslintrc配置文件中进行配置 modu…...
基于Springboot+Vue 传统文化管理系统(源码+LW+部署讲解+数据库+ppt)
!!!!!!!!! 会持续一直更新下去 有问必答 一键收藏关注不迷路 源码获取:https://pan.baidu.com/s/1aRpOv3f2sdtVYOogQjb8jg?pwdjf1d 提取码: jf1d &#…...
质量漫谈一
我知道很多同学看到这类问题,第一反应想要去寻找的就是作为测试角色,应该要如何如何去做?但是今天这里作为质量第一篇,不打算按照这样单角度去写,这类同学可以就此打住,如果在意的话,可关注后续…...
个体化神经调控 Neurolnavigation介绍
神经调控技术包括DBS, TMS, rTMS, tDCS等等。今天主要说一下TMS。 TMS全程经颅磁刺激,通过对头皮放置磁场线圈,可以定向的往局部头皮发送脉冲信号,抑制局部神经元活动。 TMS的优点是精准刺激,tDCS的优点是刺激范围比较宽泛。近期有…...
02-RT1060 双ADC采样+eDMA传输
RT1060-双ADC+eDMA外设的配合使用 该项目是基于MIMXRT1060-EVKB官方开发板编写的驱动。 一、头文件包含介绍 #include "pin_mux.h" #include "clock_config.h" #include "board.h" #include "fsl_adc.h" #include "fsl_adc_et…...
单值集合总复习
1:Object类的核心方法复习 Object 是所有类【引用数据类型】的 直接 / 间接 父类 toString(): 将一个 引用数据类型的对象 转换成 String 类型 class Object{//Sun //toString()不需要参数:将一个对象转换成字符串 将调用者转换成字符串 public String …...
Pyside6 布局管理器(4)--- QGridLayout的使用
一、QGridLayout的介绍(官翻) QGridLayout 获得可用的空间(由其父布局或 parentWidget() 提供),将其划分为行和列,并将其管理的每个小部件放入正确的单元格中。 列和行的行为是相同的;我们将…...
网站建设乚金手指花总15/郑州网站优化seo
作者:余蒙 在实现一个Android的WEB服务客户端,比如微博,论坛客户端时,经常会使用到图片的上传和下载。在这里介绍如何利用HttpClient实现图片的上传和下载功能。 1 图片上传:上传图片时,首先获得图片的路径…...
什么叫网站集约化建设/公司个人怎么做网络推广
通过这一周软件测试技术课的学习,我对软件测试这一工作有了更加深入的认识。一项完整的软件工程,仅仅把重点放在编程环节是不够的,测试可以说与编程环节同等重要。在课下,我了解了一些与软件测试工具有关的资料,分享如…...
上海计算机一级网页设计/哈尔滨网站优化流程
swift之类的继承 知识点: 1、类的继承、重写等概念; 2、子类和父类的属性和方法关系; 继承(Inheritance) 综述:一个类可以继承(inherit)另一个类的方法(methods&…...
旅游景点网站建设设计说明/江东怎样优化seo
暖气来了,嗓子眼儿冒火、口腔溃疡、大便干燥,该怎么办呢?解放军309医院营养科主任医师张晔开出四字饮食处方:降、清、润、补。 降火汤——冬瓜配紫菜 很多家庭最爱做西红柿黄瓜片汤,其实冬季最好的汤是冬瓜汤ÿ…...
wordpress 多菜单/百度文库官网入口
procstat当前服务器进程性能参数(所有类型的进程都有)cpu_usage:当前服务器进程cpu的占用率,所有子线程的cpu占用之后,每个核算100%memory_rss:当前服务器进程占用的物理内存cpu_thread当前服务器进程的各个子线程的性能参数(所有…...
新手怎么搭建网站/现在如何进行网上推广
ueditor以下错误: ““/”应用程序中的服务器错误。 -------------------------------------------------------------------------------- 未能执行 URL。 说明: 执行当前 Web 请求期间,出现未处理的异常。请检查堆栈跟踪信息,以了解有关该…...