当前位置：首页 > news >正文

深入理解强化学习——智能体的类型：有模型强化学习智能体与免模型强化学习智能体

news 2026/3/16 9:23:16

根据智能体学习的事物不同，我们可以把智能体进行归类。基于价值的智能体（Value-based agent）显式地学习价值函数，隐式地学习它的策略。策略是其从学到的价值函数里面推算出来的。基于策略的智能体（Policy-based Agent）直接学习策略，我们给它一个状态，它就会输出对应动作的概率。基于策略的智能体并没有学习价值函数。把基于价值的智能体和基于策略的智能体结合起来就有了Actor-Critic智能体（Actor-Critic Agent）。这一类智能体把策略和价值函数都学习了，然后通过两者的交互得到最佳的动作。本文就将介绍有模型强化学习智能体和免模型强化学习智能体的区别。

我们可以通过智能体到底有没有学习环境模型来对智能体进行分类。有模型（Model-based）强化学习智能体通过学习状态的转移来采取动作。免模型（Model-free）强化学习智能体没有去直接估计状态的转移，也没有得到环境的具体转移变量，它通过学习价值函数和策略函数进行决策。免模型强化学习智能体的模型里面没有环境转移的模型。

我们可以用马尔可夫决策过程来定义强化学习任务，并将其表示为四元组 $< S, A, P, R >$ ，即状态集合、动作集合、状态转移函数和奖励函数。如果这个四元组中所有元素均已知，且状态集合和动作集合在有限步数内是有限集，则智能体可以对真实环境进行建模，构建一个虚拟世界来模拟真实环境中的状态和交互反应。具体来说，当智能体知道状态转移函数 $P(s_{t+1}|s_t, a_t)$ 和奖励函数 $R(s_t, a_t)$ 后，它就能知道在某一状态下执行某一动作后能带来的奖励和环境的下一状态，这样智能体就不需要在真实环境中采取动作，直接在虚拟世界中学习和规划策略即可。这种学习方法称为有模型强化学习。有模型强化学习的流程如下图所示：
有模型强化学习流程

然而在实际应用中，智能体并不是那么容易就能知道马尔可夫决策过程中的所有元素的。通常情况下，状态转移函数和奖励函数很难估计，甚至连环境中的状态都可能是未知的，这时就需要采用免模型强化学习。免模型强化学习没有对真实环境进行建模，智能体只能在真实环境中通过一定的策略来执行动作，等待奖励和状态迁移，然后根据这些反馈信息来更新动作策略，这样反复迭代直到学习到最优策略。

针对是否需要对真实环境建模，强化学习可以分为有模型强化学习和免模型强化学习。有模型强化学习是指根据环境中的经验，构建一个虚拟世界，同时在真实环境和虚拟世界中学习；免模型强化学习是指不对环境进行建模，直接与真实环境进行交互来学习到最优策略。

总之，有模型强化学习相比免模型强化学习仅仅多出一个步骤，即对真实环境进行建模。因此，一些有模型的强化学习方法，也可以在免模型的强化学习方法中使用。在实际应用中，如果不清楚该用有模型强化学习还是免模型强化学习，可以先思考在智能体执行动作前，是否能对下一步的状态和奖励进行预测，如果能，就能够对环境进行建模，从而采用有模型学习。

免模型强化学习通常属于数据驱动型方法，需要大量的采样来估计状态、动作及奖励函数，从而优化动作策略。例如，在雅达利平台上的《太空侵略者》游戏中，免模型的深度强化学习需要大约两亿帧游戏画面才能学到比较理想的效果。相比之下，有模型的深度强化学习可以在一定程度上缓解训练数据匮乏的问题，因为智能体可以在虚拟世界中进行训练。免模型学习的泛化性要优于有模型强化学习，原因是有模型强化学习算需要对真实环境进行建模，并且虚拟世界与真实环境之间可能还有差异，这限制了有模型强化学习算法的泛化性。有模型的强化学习方法可以对环境建模，使得该类方法具有独特魅力，即“想象能力”。在免模型强化学习中，智能体只能一步一步地采取策略，等待真实环境的反馈；有模型强化学习可以在虚拟世界中预测出将要发生的事，并采取对自己最有利的策略。

目前，大部分深度强化学习方法都采用了免模型强化学习，这是因为：免模型强化学习更为简单、直观且有丰富的开源资料，如AlphaGo系列都采用免模型强化学习；在目前的强化学习研究中，大部分情况下环境都是静态的、可描述的，智能体的状态是离散的、可观察的（如雅达利游戏平台），这种相对简单、确定的问题并不需要评估状态转移函数和奖励函数，可直接采用免模型强化学习，使用大量的样本进行训练就能获得较好的效果。

如下图所示，我们可以把几类模型放到同一个图里面。下图有3个组成成分：价值函数、策略和模型。按一个智能体具有三者中的三者、两者或一者的情况可以把它分成很多类：
强化学习智能体的类型

参考文献：
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习（第2版）[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践（原书第2版）[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL：强化学习教程 [M]. 人民邮电出版社, 2022

深入理解强化学习——智能体的类型：有模型强化学习智能体与免模型强化学习智能体

分类目录：《深入理解强化学习》总目录根据智能体学习的事物不同，我们可以把智能体进行归类。基于价值的智能体（Value-based agent）显式地学习价值函数，隐式地学习它的策略。策略是其从学到的价值函数里面推算出来的。…...

编程日记 2023/10/17 20:43:02

vue项目获得开源代码之后跳过登录界面

readme运行进入到账号和密码找到main.js 比如说，以上这段代码剩下next（）就成功进入了...

编程日记 2023/10/17 20:42:00

WPS、Excel表格增加一列，序列1到任意大小 / 填充某个范围的数字到列

Excel添加一列递增的数字方法有如下： 一、最常用的，使用鼠标放到右下角下拉增加 1、选中起始框的右下角，直到显示黑色实心十字 2、一直向下拖动 3、成功这种填充方式是最常用的，100以内都可以轻松瞬间完成 1~100填充但是如果…...

编程日记 2023/10/17 20:39:58

在 rider 里用配置 Perforce（P4）的注意事项

整个配置界面里，关键就配2处位置，但是都有些误导性。 1是连接形参的4个参数都得填，字符集看你项目的要求，这里工作区其实指的是你的工作空间，还不如显示英文的 Workspace 呢，搞得我一开始没填，…...

编程日记 2023/10/17 20:38:57

在Spring中，标签管理的Bean中，为什么使用@Autowired自动装配修饰引用类（前提条件该引用类也是标签管理的Bean）

Autowired是Spring框架的一个注解，它可以用来完成自动装配。自动装配是Spring框架的一个特性，它可以避免手动去注入依赖，而是由框架自动注入。这样可以减少代码的重复性和提高开发效率。在使用Autowired注解时，Spring会自动搜…...

编程日记 2023/10/17 20:37:57

俄罗斯YandexGPT 2在国家考试中获得高分；OpenAI API开发者快速入门指南

🦉 AI新闻 🚀 俄罗斯YandexGPT 2聊天机器人成功在国家考试中获得高分摘要：俄罗斯YandexGPT 2聊天机器人通过国家统一考试文学科目，以55分的加权分数成功进入大学。Yandex团队强调他们在开发过程中确保数据库不包含任何关于统考…...

编程日记 2023/10/17 20:36:56

Nginx 同一端口下部署多个 Vue3 项目

前言前端多项目部署到 Nginx 的同一监听端口下的解决方案，项目由一个主项目和多个子项目组成，主项目和子项目都是单独打包。主子项目之间是使用的腾讯开源的无界（WebComponent 容器 iframe 沙箱）前端框架，能够完善…...

编程日记 2023/10/17 20:35:55

计算机毕业设计无人智慧超市管理系统的设计与实现 Javaweb项目 Java实战项目前后端分离文档报告代码讲解安装调试

🍊作者：计算机编程-吉哥 🍊简介：专业从事JavaWeb程序开发，微信小程序开发，定制化项目、源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事，生活就是快乐的。 🍊心愿：点…...

编程日记 2023/10/17 20:34:53

js构造函数和原型链

以下是一个简单的JS原型链代码示例： function Person(name, age) {this.name name;this.age age; }Person.prototype.sayHello function() {console.log(Hello, Im ${this.name} and Im ${this.age} years old.); }let person1 new Person(Alice, 20);person1.…...

编程日记 2023/10/17 20:33:51

python中matrix()矩阵和array()数组（待完善）

参考：python矩阵中matrix()和array()函数区别-CSDN博客区别： 维度：ndarray可以是多维的，包括1D、2D、3D等，而matrix只能是2维的，也就是矩阵。数据类型：ndarray的数据类型可以不一致&#xf…...

编程日记 2023/10/17 20:32:50

设计海报都有哪些好用的软件推荐

在新媒体时代，设计在各个方面都是不可分割的。它最初是设计师的工作，并逐渐成为新媒体编辑的必要技能。网页内容需要图片和文字，应用程序需要独特的风格基调，人们更喜欢分享视频和图片，而不是简单的文本。因此&#…...

编程日记 2023/10/17 20:31:48

Arcgis中像元值变化问题，拉伸显示的是否为实际像元值范围？

Arcgis中合并栅格但像元值变化问题描述这是四幅栅格，范围都在-1-9之间，怀疑这个范围是否是真实的范围。因为经常听到同学说放到arcgis拉伸显示之后，值变化了，所以研究一下。原因可以打开ENVI的像元快速统计工具&#xff…...

编程日记 2023/10/17 20:30:47

oracle库中数据利用datax工具同步至mysql库

查看oracle版本 $sqlplus aaa/aaaa192.168.1.1/lcfaSQL*Plus: Release 19.0.0.0.0 - Production on Tue Oct 17 15:56:46 2023 Version 19.15.0.0.0Copyright (c) 1982, 2022, Oracle. All rights reserved.Last Successful login time: Tue Oct 17 2023 15:56:03 08:00Conne…...

编程日记 2023/10/17 20:29:45

【Unity HDRP渲染管线下的WorleyUtilities文件，“Hash”函数】

Unity HDRP内置文件WorleyUtilities WorleyUtilities文件路径如下：文件代码如下然后转译到ShaderLab中：存档：WorleyUtilities文件路径如下： D:…\Library\PackageCache\com.unity.render-pipelines.high-definition@14.0.8\Runtime\Lighting\VolumetricClouds\WorleyUtili…...

编程日记 2023/10/17 20:28:44

前端跨域问题解决

一、同源策略同源策略是一个重要的安全策略，它用于限制一个Origin的文档或者它加载的脚本如何能与另一个源的资源进行交互。它能帮助阻隔恶意文档，减少可能被攻击的媒介。 Origin：指web文档的来源，Web 内容的来源取决于访问的U…...

编程日记 2023/10/17 20:27:43

【前端】Js

目录一.前置知识第一个程序JavaScript 的书写形式注释输入输出二.语法概览变量的使用理解动态类型基本数据类型三.运算符算术运算符赋值运算符 & 复合赋值运算符自增自减运算符比较运算符逻辑运算符位运算移位运算四.条件语句if 语句三元表达式switch 五.循环语句whi…...

编程日记 2023/10/17 20:26:41

第四章 Istio出口流量管理

文章目录访问外部服务Envoy 代理将请求传递给网格外服务配置服务条目以提供对外部服务的受控访问访问外部 HTTP 服务直接访问外部服务出口网关清理 HTTP 网关其他访问外部服务为了更好的做好网络访问控制，k8s结合Istio出口网络升级示意图来自 Istio 的 pod…...

编程日记 2023/10/17 20:25:40

leetcode做题笔记188. 买卖股票的最佳时机 IV

给你一个整数数组 prices 和一个整数 k ，其中 prices[i] 是某支给定的股票在第 i 天的价格。设计一个算法来计算你所能获取的最大利润。你最多可以完成 k 笔交易。也就是说，你最多可以买 k 次，卖 k 次。注意：你不能同时参与多…...

编程日记 2023/10/17 20:24:39

基于springboot实现大学生社团活动平台项目【项目源码+论文说明】

摘要 21世纪的今天，随着社会的不断发展与进步，人们对于信息科学化的认识，已由低层次向高层次发展，由原来的感性认识向理性认识提高，网络管理工作的重要性已逐渐被人们所认识，科学化的管理，使信…...

编程日记 2023/10/17 20:23:38

力扣--第三大的数

给你一个非空数组，返回此数组中第三大的数。如果不存在，则返回数组中最大的数。示例 1： 输入：[3, 2, 1] 输出：1 解释：第三大的数是 1 。示例 2： 输入：[1, 2] 输出&#xff1…...

编程日记 2023/10/17 20:22:37

Ubuntu 22.04 LTS上KVM虚拟化实战：从零搭建Windows开发环境（含SSH远程管理技巧）

Ubuntu 22.04 LTS上KVM虚拟化实战：从零搭建Windows开发环境（含SSH远程管理技巧） 在当今混合开发环境中，Linux服务器搭配Windows虚拟机的组合正成为越来越多技术团队的选择。想象一下这样的场景：你手头有一台性能强劲的…...

编程新知 2026/3/16 8:42:26

HC05蓝牙模块与天空星HC32F4A0PITB开发板串口通信实战：从AT指令配置到数据收发

HC05蓝牙模块与天空星HC32F4A0PITB开发板串口通信实战：从AT指令配置到数据收发最近在做一个智能小车的项目，需要用蓝牙连接手机进行遥控，于是翻出了经典的HC05蓝牙模块。正好手头有立创的天空星HC32F4A0PITB开发板，就想着把这两个…...

编程新知 2026/3/16 7:45:57

TQVaultAE：解放泰坦之旅玩家的装备管理革命

TQVaultAE：解放泰坦之旅玩家的装备管理革命【免费下载链接】TQVaultAE Extra bank space for Titan Quest Anniversary Edition 项目地址: https://gitcode.com/gh_mirrors/tq/TQVaultAE 当你在《泰坦之旅周年版》的古希腊废墟中激战三小时，背包…...

编程新知 2026/3/16 7:41:52

PP-DocLayoutV3在Unity中的应用：混合现实场景的文档信息叠加

PP-DocLayoutV3在Unity中的应用：混合现实场景的文档信息叠加你有没有想过，戴上一副AR眼镜，眼前那份密密麻麻的英文合同，关键条款和数字就能自动高亮出来，甚至直接翻译成中文悬浮在旁边？或者，在…...

编程新知 2026/3/16 7:27:50

基于主从博弈的社区综合能源系统分布式协同优化运行策略探索

基于主从博弈的社区综合能源系统分布式协同优化运行策略平台：Matlabyalmipcplex 随着能源市场由传统的垂直一体式结构向交互竞争型结构转变，社区综合能源系统的分布式特征愈发明显，传统的集中优化方法难以揭示多主体间的交互行为。该文提出…...

编程新知 2026/3/16 6:49:09

Python-flask基于微信小程序的学生运动打卡交流系统的设计与实现

目录项目技术支持可定制开发之功能创新亮点源码获取详细视频演示 ：文章底部获取博主联系方式！同行可合作项目技术支持前端开发框架:vue.js 数据库 mysql 版本不限数据库工具：Navicat/SQLyog/ MySQL Workbench等都可以后端语言框架支持&am…...

编程新知 2026/3/16 6:43:03

C++面试必考：指针与引用区别详解

2025年C面试题全面解析与答案指南一、C基础核心概念 1.1 基础语法与特性面试考点核心要点考察频率指针与引用区别、使用场景、内存管理⭐⭐⭐⭐⭐const关键字常量定义、函数修饰、成员函数⭐⭐⭐⭐static关键字静态变量、静态函数、静态成员⭐⭐⭐⭐内存管理new/delete、m…...

编程新知 2026/3/16 6:20:39

2025_NIPS_MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

一、文章主要内容总结该研究针对现有多模态大语言模型（MLLMs）评估基准局限于单视频理解、无法满足现实场景中多视频分析需求的问题，提出了首个全面的多视频理解评估基准 MVU-Eval。核心内容：基准设计：涵盖8项核心能力（4项基础感知任务+4项高阶推理任务），包含1824个…...

编程新知 2026/3/16 4:45:08

Qwen3-14b_int4_awq轻量部署教程：单卡A10/A100上运行14B级开源大模型

Qwen3-14b_int4_awq轻量部署教程：单卡A10/A100上运行14B级开源大模型 1. 模型简介 Qwen3-14b_int4_awq是基于Qwen3-14b模型的int4量化版本，采用AngelSlim技术进行压缩优化，专为文本生成任务设计。这个轻量化版本可以在单张A10或A100显卡上高…...

编程新知 2026/3/16 3:56:38

仅限核心开发者查阅：MCP本地DB连接器v2.4.0源码加密配置模块逆向还原（含AES-256密钥派生流程图）

第一章：MCP本地DB连接器v2.4.0源码加密配置模块逆向还原总览MCP本地DB连接器v2.4.0的加密配置模块采用混合式保护策略，结合编译期混淆、运行时密钥派生与AES-256-GCM动态解密三重机制。该模块不依赖外部密钥管理服务（KMS）&#xf…...

编程新知 2026/3/16 3:18:21

相关文章：