【强化学习】第02期:动态规划方法
笔者近期上了国科大周晓飞老师《强化学习及其应用》课程,计划整理一个强化学习系列笔记。笔记中所引用的内容部分出自周老师的课程PPT。笔记中如有不到之处,敬请批评指正。
文章目录
- 2.1 动态规划:策略收敛法/策略迭代法
- 2.2 动态规划:值迭代法
总的来说,DP方法就是在已知bellman方程的环境参数(回报R和转移概率P)的情况下,求取最优策略 u ∗ u^* u∗和最优值 v ∗ v^* v∗。
2.1 动态规划:策略收敛法/策略迭代法
总体思路:算V --> 算Q --> 策略改进 (不断重复)
初始化最优策略 u,
Step1 策略评估: 确定当前策略 𝜋 的值函数 V π V^π Vπ,可通过下面的式子求解。
Step2 计算动作值函数Q: 使用值函数 V π V^π Vπ来计算每个状态-动作对的动作值函数 Q π ( s , a ) Q^π(s,a) Qπ(s,a)。这一步是为了计算在当前策略 𝜋 下,每个状态-动作对的期望回报。
Step3 策略改进: 对每个状态 𝑠 选择能使 Q π ( s , a ) Q^π(s,a) Qπ(s,a)最大的动作𝑎,从而形成新的策略 𝜋′。这一步是为了更新策略,使其更接近最优策略。

Step4: goto Step1, 直到最优策略u不变。

2.2 动态规划:值迭代法
值迭代(Value Iteration)是一种用于求解马尔可夫决策过程(MDP)的经典动态规划算法。它通过迭代地更新值函数,逐步逼近最优值函数 V ∗ V^* V∗ ,最终得到最优策略 π ∗ π^* π∗。

值迭代一般分为这几个步骤:
step1 初始化:设定初始值函数 V ( s ) V(s) V(s)为零或其他任意值。
step2 迭代更新:对于每个状态 𝑠 ,根据当前值函数 V k V_k Vk计算新的值函数 V k + 1 V_{k+1} Vk+1。这个更新过程通过遍历所有状态和所有可能的动作,计算在每个状态下采取每个动作所能获得的期望累计奖励,并选择其中的最大值作为新的值函数值。

step3 收敛判定:当值函数的变化小于某个预设的阈值 𝜃 时,认为值函数已经收敛,可以停止迭代。

step4 策略提取:在值函数收敛后,通过值函数 V ∗ V^* V∗ 提取最优策略 π ∗ π^* π∗:

关于值迭代,也有很多处理技巧,这里简单介绍三种。
(1)In-place Dynamic Programming
在标准的值迭代过程中,我们通常会维护两个值函数,一个用于保存当前迭代的结果,另一个用于保存上一次迭代的结果。而在 In-place Dynamic Programming 中,我们只使用一个值函数数组,在每次更新时直接覆盖旧的值。
特点:只需要一个数组来存储值函数,减少了内存消耗。
(2)Prioritized Sweeping
是一种加速值迭代的方法,通过优先更新那些对值函数变化影响较大的状态,从而提高收敛速度。
(3)Real-time Dynamic Programming (RTDP)
是一种在实际运行过程中更新值函数的方法,适用于在线学习。
相关文章:
【强化学习】第02期:动态规划方法
笔者近期上了国科大周晓飞老师《强化学习及其应用》课程,计划整理一个强化学习系列笔记。笔记中所引用的内容部分出自周老师的课程PPT。笔记中如有不到之处,敬请批评指正。 文章目录 2.1 动态规划:策略收敛法/策略迭代法2.2 动态规划…...
安全技术和防火墙(二)
接上一节 备份和还原 iptables-save > /opt/iptables.bak iptables-restore < /opt/iptables.bak snat和dnat snat源地址转换 内网到外网 内网ip转换成可以访问外网的ip 内网的多个主机可以只有一个有效的公网ip地址访问外部网络 dnat 目的地址转发 外部用户&#…...
【51单片机入门】数码管原理
文章目录 前言共阴极与共阳极数码管多个数码管显示原理 总结 前言 在我们的日常生活中,数码管被广泛应用于各种电子设备中,如电子表、计时器、电子钟等。数码管的主要功能是显示数字和一些特殊字符。在这篇文章中,我们将探讨数码管的工作原理…...
三星DRAM、NAND,“又双叒叕”带头涨价了
据韩国媒体《每日经济新闻》报道,三星电子计划在第三季度上调服务器DRAM和企业级NAND闪存的价格,涨幅预计在15%-20%,主要受人工智能(AI)需求激增的推动。这一举措有望提振公司下半年业绩。 据《经济日报》报道援引业内消息,由于厂…...
星戈瑞FITC-PEG2000-Biotin的生物相容性
生物相容性是指材料与生物体之间相互作用时,材料对生物体无毒、无刺激,且能够被生物体接受并正常发挥其功能的特性。 FITC-PEG2000-Biotin作为一种荧光标记试剂,在细胞成像、药物传递和生物标志物检测等领域具有诸多应用前景。 FITC-PEG2000…...
数据资产管理的艺术:构建智能化、精细化的数据资产管理体系,从数据整合、分析到决策支持,为企业提供一站式的数据资产解决方案,助力企业把握数字时代的新机遇
一、引言 在数字化浪潮席卷全球的今天,数据已经成为企业最重要的资产之一。如何高效、安全地管理这些海量数据,从中提取有价值的信息,并将其转化为决策支持,是每个企业都必须面对的挑战。本文将探讨数据资产管理的艺术࿰…...
基于Java微信小程序校园自助打印系统设计和实现(源码+LW+调试文档+讲解等)
💗博主介绍:✌全网粉丝10W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟感兴趣的可以先收藏起来,还…...
股票复盘思路
股票复盘是一个回顾和分析市场及个人交易决策的过程,旨在从过去的表现中学习并优化未来的投资策略。以下是一些基本的股票复盘步骤和关注点: 市场概况回顾: 观察并记录每日市场的整体表现,包括大盘指数涨跌、成交量变化。统计涨停和跌停个股的数量,了解市场情绪和活跃度。…...
OpenGL系列(六)摄像机
在 OpenGL系列(六)变换 中,一个目标物体经过模型矩阵、观察矩阵和投影矩阵的变换才能正常显示出来,其中模型矩阵主要针对目标物体,它会影响物体的位姿。观察矩阵和投影矩阵主要针对观察者而已,这两个变换决…...
一个端口配置两个vue和后端服务,nginx以及前后端服务怎么配?
nginx配置重点看server中的内容: worker_processes 8; pid /usr/local/nginx/logs/nginx.pid;events {# 此为 Linux 系统特为处理大批量文件描述符而作改进的 poll 事件模型use epoll;worker_connections 512; # 工作进程的最大连接数量# 允许同时接受多个网络连…...
295. 数据流的中位数
class MedianFinder {Queue<Integer> A,B;public MedianFinder() {A new PriorityQueue<>();//小根堆存储后半部分B new PriorityQueue<>((x,y)->(y-x));//大根堆存储前半部分}public void addNum(int num) {if(A.size()0 && B.size()0){B.add(…...
OCR训练和C#部署英文字符训练
PaddleOCR是一个基于飞桨开发的OCR(Optical Character Recognition,光学字符识别)系统。其技术体系包括文字检测、文字识别、文本方向检测和图像处理等模块。以下是其优点: 高精度:PaddleOCR采用深度学习算法进行训练…...
webpack【实用教程】
基础配置 配置的拆分和合并 通常 webpack 的配置文件会有3个 webpack.common.js 公共配置(会被另外两个配置文件导入并合并)webpack.dev.js 开发环境的配置webpack.prod.js 生产环境的配置 开发环境的本地服务 在 webpack.dev.js 中配置 devServer:…...
如何使用C++进行文件读写操作
在C中,我们可以使用标准库中的 <fstream>(文件流)来进行文件的读写操作。以下是一些基本的文件读写操作的示例。 读取文件 cpp复制代码 #include <fstream> #include <iostream> #include <string> int main() { s…...
Tensorflow Lite移动平台编译
Android平台编译 如果不做定制化操作,我们不需要自己编译TensorFlow Lite Android库。我们可以直接使用位于MavenCentral的TensorFlow Lite AAR。但是在某些情况下,我们需要本地编译TensorFlow Lite。例如,您可能正在构建一个包含operations selected from TensorFlow的自定…...
2024年6月24日-6月30日(ue5肉鸽视频p16-p25)
试过重点放在独立游戏上,有个indienova独立游戏团队是全职的,由于他们干了几个月,节奏暂时跟不上,紧张焦虑了。五一时也有点自暴自弃了,实在没必要,按照自己的节奏走即可。精力和时间也有限,放在…...
LeetCode.面试题17.24.最大子矩阵详解
问题描述 给定一个正整数、负整数和 0 组成的 N M 矩阵,编写代码找出元素总和最大的子矩阵。 返回一个数组 [r1, c1, r2, c2],其中 r1, c1 分别代表子矩阵左上角的行号和列号,r2, c2 分别代表右下角的行号和列号。若有多个满足条件的子矩阵…...
云动态摘要 2024-06-28
给您带来云厂商的最新动态,最新产品资讯和最新优惠更新。 最新优惠与活动 [新客专享]WeData 限时特惠 腾讯云 2024-06-21 数据分类分级管理,构建数据安全屏障 ,仅需9.9元! 云服务器ECS试用产品续用 阿里云 2024-04-14 云服务器…...
六、资产安全—信息分级资产管理与隐私保护(CISSP)
目录 1.信息分级 2.信息分级方法 3.责任的层级 4.资产管理 5.隐私数据管理角色 6.数据安全控制 7.数据保护方案 8.使用安全基线 六、资产安全—数据管理(CISSP): 五、身份与访问管理—身份管理和访问控制管理(CISSP): 1.信息分级 信息分级举列: 2.信息分级方…...
香港服务器托管对外贸行业必要性和优势
在当今全球化的经济环境下,外贸企业面临着前所未有的机遇与挑战。其中,服务器托管的选择对于外贸企业的运营效率和市场拓展具有举足轻重的作用。香港服务器,凭借其独特的地理位置、优质的网络环境和卓越的服务性能,一直是外贸企业…...
刚刚,2025图灵奖揭晓!面对即将瘫痪的传统密码学,Go 语言的“抗量子”底牌曝光
大家好,我是Tony Bai。就在昨天(2026 年 3 月 18 日),计算科学界的最高荣誉——ACM A.M. 图灵奖正式揭晓。2025 年的图灵奖,颁给了 Charles H. Bennett 和 Gilles Brassard 两位伟大的科学家,以表彰他们在“…...
Oracle数据加载提速神器:Direct-Path Insert实战避坑指南(附性能对比测试)
Oracle数据加载提速神器:Direct-Path Insert实战避坑指南(附性能对比测试) 在数据爆炸式增长的时代,Oracle数据库管理员和开发者经常面临海量数据加载的挑战。传统的数据插入方式在处理百万级甚至千万级记录时,往往显得…...
Pixel Dimension Fissioner开源镜像:免编译部署,支持A10/A100/V100全适配
Pixel Dimension Fissioner开源镜像:免编译部署,支持A10/A100/V100全适配 1. 工具介绍 像素语言维度裂变器(Pixel Dimension Fissioner)是一款基于MT5-Zero-Shot-Augment核心引擎构建的高端文本改写与增强工具。它通过创新的16-bit像素冒险工坊界面设计…...
每周一个开源项目#1:MiroFish —— 一个试图“预测未来”的AI系统
🚀 每周一个开源项目 #1:MiroFish —— 一个试图“预测未来”的AI系统 GitHub 地址: https://github.com/666ghj/MiroFish🧠 一句话看懂MiroFish 用“成千上万个AI人类”模拟世界,从而预测未来它的目标很夸张…...
2026冲刺用!更贴合专科生的降AI率平台 千笔·专业降AIGC智能体 VS 灵感ai
在AI技术迅猛发展的今天,越来越多的学生开始借助AI工具辅助论文写作,以提高效率和内容质量。然而,随着学术审查标准的不断提升,AI生成内容的痕迹愈发明显,查重系统也不断升级,对AI率的检测更加严格。许多学…...
那我不训练,有面邻接图和面类型怎么搞图结构+原型网络 图核 (Graph Kernels)
如果不进行深度学习训练(即不使用神经网络训练 Encoder),你仍然可以实现**“图结构 原型思想”**。 在这种情况下,核心思路是从“学习特征”转向**“手工特征工程 图匹配(Graph Matching)”**。你可以利用…...
Live Avatar性能调优:不用改代码,参数组合提速40%
Live Avatar性能调优:不用改代码,参数组合提速40% 1. 性能瓶颈分析 1.1 显存使用机制解析 Live Avatar作为14B参数的大模型,其显存占用主要来自三个部分: 模型参数加载:21.48GB/GPU(FSDP分片后…...
电子科技大学计算机复试面试:如何用一份‘挖坑式’简历引导老师提问?
电子科技大学计算机复试面试:如何用一份‘挖坑式’简历引导老师提问? 面试的本质是一场精心设计的对话博弈。对于电子科技大学计算机专业的复试考生而言,简历不仅是经历的罗列,更是引导面试走向的战略地图。本文将揭示如何通过&qu…...
跨平台存档迁移与GUID修复:Palworld存档修复工具完全指南
跨平台存档迁移与GUID修复:Palworld存档修复工具完全指南 【免费下载链接】palworld-host-save-fix 项目地址: https://gitcode.com/gh_mirrors/pa/palworld-host-save-fix 在多人游戏体验中,存档迁移一直是玩家面临的一大挑战,尤其是…...
Petduino:面向教育的Arduino兼容嵌入式宠物平台
1. 项目概述Petduino 是一款面向教育与创意硬件开发的 Arduino 兼容嵌入式平台,其核心价值不在于高性能计算,而在于以极简抽象封装复杂外设交互逻辑,使初学者与原型开发者能快速构建具备视觉反馈、音频输出与物理交互能力的“有生命感”的嵌入…...
