当前位置：首页 > news >正文

如何分辨on-policy和off-policy

news 2026/2/8 8:08:30

on-policy的定义：behavior policy和target-policy相同的是on-policy，不同的是off-policy。

behavior policy：采样数据的策略，影响的是采样出来s,a的分布。
target policy：就是被不断迭代修改的策略。

如果是基于深度的算法，那么非常好分辨：目标函数里面一定有s和a的期望，而计算梯度的时候使用了SGD，把一个采样作为了期望的值。但是这里面还有一个隐含的限制就是采样遵循的分布必须是s,a的分布。

因此分辨是否是on-policy的，只需要看目标函数。如果目标函数中s,a的分布和策略相关的，那么一定是on-policy的，如果是策略无关的，那么一定是off-policy的。

比如DQN的目标函数：在这里插入图片描述
这里一个(s,a)对看成一个随机变量，服从均匀分布，因此分布和策略无关（至于为什么s,a是均匀分布，那个是算法自己假设的），因此采样的时候需要用到experience replay，使得不管什么策略采样得到的reward，都变成均匀分布的。

因此用了experice replay之后，随便什么策略采样，虽然采样出来s,a服从那个策略的分布，但是经过experice replay之后还是变成了均匀分布。

比如PG:
在这里插入图片描述

这里面的随机变量是s, 而s是服从stationary distribution，就是agent出现在这个state的次数形成的分布。而这个分布和策略pi是相关的，因此是on-policy的(改变策略之后，agent出现的概率也改变了)

比如DPG:

在这里插入图片描述
这里面的分布d是一个常数(这是为了计算梯度方便)，因此DPG中s,a的采样和策略无关，是off-policy的。

比如PPO:

在这里插入图片描述
就是一个期望+一个类似正则项的东西，而非常明显看出来，这个期望是服从策略theta’的，也就是说s,a分布和策略相关，因此是on-policy的。

简单说下PPO：PPO用两个网络表示策略，一个是theta’一个是theta，用theta’网络的策略采样reward，得到的reward给theta的网络梯度下降。看起来怎么用了两个策略? 其实两个策略最后慢慢收敛到一起的，是一个策略。如果是off-policy是完全和策略无关的。

如何分辨on-policy和off-policy

on-policy的定义：behavior policy和target-policy相同的是on-policy，不同的是off-policy。 behavior policy：采样数据的策略，影响的是采样出来s,a的分布。 target policy：就是被不断迭代修改的策略。如果是基于深度…...

编程日记 2023/5/15 9:05:38

第三讲：ambari编译后的安装包制作流程说明

一、概述前两讲，我们已经将 Ambari 源码编译成功。现在我们想将 Ambari 编译后的 rpm 包，都放到 yum 本地仓库中，这样 Ambari 与 HDP 在安装部署时，就直接使用的我们自己编译的安装包了。 Ambari 的 rpm 包，有这么几类： ambari-server rpmambari-agent rpmambari metr…...

编程日记 2023/5/15 9:05:16

Python进阶-----面对对象6.0（绑定方法[类方法、静态方法]与内置方法）

目录前言： 1.绑定方法 （1）实例方法 （2）类方法 （3）静态方法 2.类型检测 （1）issubclass() 函数 （2）isinstance() 函数 3.内置方法&#xf…...

编程日记 2023/5/15 9:05:03

java8四大基本函数式接口

1.什么是函数式接口? 只包含一个抽象方法的接口，称为函数式接口你可以通过Lambda表达式来创建该接口的对象。（若Lambda表达式抛出一个受检异常，那么该异常需要在目标接口的抽象方法上进行声明）我们可以在任意函数式接口上使用Fu…...

编程日记 2023/5/15 9:04:47

Junit测试框架

一、简介 Junit框架是一个开源的Java语言单元测试框架，Java方向使用最广泛的单元测试框架，使用Java开发者都应该学习Junit并能掌握单元测试的编写。对于Junit和Selenium的关系：通俗点来说Selenium如果比喻为灯泡，那么Junit就是电…...

编程日记 2023/5/15 9:04:16

操作系统复习题

什么是线程？ 线程（Thread）：轻量级进程，是操作系统进行调度的最小单位。一个线程是一个任务（一个程序段）的一次执行过程。线程不占有内存空间，它包括在进程的内存空间中。在同一个进程…...

编程日记 2023/5/15 9:03:52

web项目的初始化

Tomcat 安装配置 Tomcat 官方站点：Apache Tomcat - Welcome! 。安装得到下载的安装包（一般是 zip 文件），并解压到你指定的目录（建议不要解压在 c 盘）；（这里以 windows10 系统为例…...

编程日记 2023/5/15 9:03:29

29- 迁移学习 (TensorFlow系列) (深度学习)

知识要点迁移学习: 使用别人预训练模型参数时，要注意别人的预处理方式。常见的迁移学习方式： 载入权重后训练所有参数.载入权重后只训练最后几层参数.载入权重后在原网络基础上再添加一层全连接层，仅训练最后一个全连接层.训练数据是 10_m…...

编程日记 2023/5/19 23:02:11

$\lim\limits_{x\to a} f(x)$

工具篇（五）炫酷排版，尽在LaTeX：让你的文档飞升吧！

作者的话作为一个文本排版工具，latex一直以来都备受科研工作者、学生和出版社的青睐。但是对于初学者来说，latex的学习曲线可能会有些陡峭。因此，我写这篇博客旨在为初学者提供一个简单易懂的latex教程，让大家能够快速入门并掌握…...

编程日记 2023/5/19 23:02:08

【蓝桥杯PythonB组备赛】【Acwing周赛】第93场 4867. 整除数 4868. 数字替换 python解

目录 A AcWing 4867. 整除数 1.题目描述 2.思路分析 3.代码实现 B AcWing 4868. 数字替换 1.题目描述 2.思路分析 3.代码实现 A AcWing 4867. 整除数 1.题目描述 2.思路分析为什么不能直接暴力？ 数据：1 ≤ n, k ≤ 10 ** 9 1s内最多…...

编程日记 2023/5/19 23:02:02

KNN学习报告

原理 KNN算法就是在其表征空间中，求K个最邻近的点。根据已知的这几个点对其进行分类。如果其特征参数只有一个，那么就是一维空间。如果其特征参数只有两个，那么就是二维空间。如果其特征参数只有三个，那么就是三维空间。如果其特征…...

编程日记 2023/5/17 11:51:10

Java奠基】方法的讲解与使用

目录方法概述方法的定义与调用方法的重载方法的值传递方法概述方法是程序中最小的执行单元，在实际开发中会将重复的具有独立功能的代码抽取到方法中，这样可以提高代码的复用性和可维护性。方法的定义与调用在Java中定义方法的格式都是相同…...

编程日记 2023/5/19 23:02:00

字符串hash

K - 子串翻转回文串2020ccpc河南省赛字符串哈希：将字符串变成x进制数对公式的理解：举个十进制数的例子：123456h[1]1；h[2]1*10212;h[3]12*103123;h[4]123*1041234;.........h[i]h[i-1]*xa[i];h[i]代表的恰巧是整个数的前缀用p[i]表…...

编程日记 2023/5/15 9:02:56

试题算法训练转圈游戏

问题描述 n个小伙伴（编号从0到n-1）围坐一圈玩游戏。按照顺时针方向给n个位置编号，从0到n-1。　　最初，第0号小伙伴在第0号位置，第1号小伙伴在第 1 号位置，……，依此类推。　　游戏规则如下&am…...

编程日记 2023/5/19 23:01:57

【uni-app教程】九、运行环境判断与跨端兼容

（1）开发环境和生产环境 uni-app 可通过 process.env.NODE_ENV 判断当前环境是开发环境还是生产环境，一般用于连接测试服务器或生产服务器的动态切换。在HBuilderX 中，点击「运行」编译出来的代码是开发环境，点击「发行…...

编程日记 2023/5/19 23:01:55

扩展WSL2虚拟硬盘的大小

扩展WSL2虚拟硬盘的大小 1、在 Windows PowerShell 中终止所有 WSL 实例 wsl --shutdown2、查看 WSL 实例运行状态，确认关闭，并记住发行版的名称 wsl -l -v如果没有更改移动过发行版安装包位置，那么可以通过以下方法查找到发行版的安装包位…...

编程日记 2023/5/19 23:01:53

Win系统蓝牙设备频繁卡顿/断连 - 解决方案

Win系统蓝牙设备频繁卡顿/断连 - 解决方案前言常见网卡Intel无线网卡（推荐）Realtek无线网卡总结查看本机网卡解决方案更新驱动更换网卡（推荐）前言无线网卡有2个模块，一个是WiFi，一个是蓝牙，因…...

编程日记 2023/5/19 23:01:51

Git学习入门（2）- 基本命令操作总结

个人博客：我的个人博客，各位大佬来玩1 创建 git仓库1.1 从现有工作目录中初始化新仓库需要到你需要用git管理的项目中输入以下命令：git init便会创建一个空的git项目，并且当前目录下会出现一个名为 .git 的目录， Git 需…...

编程日记 2023/5/19 23:01:48

SPringCloud：Nacos快速入门及相关属性配置

目录一、Nacos快速入门 1、在父工程中添加spring-cloud-alilbaba的管理依赖 2、如果有使用eureka依赖，将其注释 3、添加nacos的客户端依赖 4、修改yml文件，注释eureka配置 5、启动测试二、Nacos相关属性配置 1、Nacos服务分级存储 2、根据集群…...

编程日记 2023/5/19 23:01:46

医疗器械之模糊算法（嵌入式部分）

模糊控制所谓模糊控制，就是对难以用已有规律描述的复杂系统，采用自然语言（如大，中，小）加以描述，借助定性的，不精确的以及模糊的条件语句来表达，模糊控制是一种基于语言的…...

编程日记 2023/5/19 23:01:43

conda相比python好处

Conda 作为 Python 的环境和包管理工具，相比原生 Python 生态（如 pip 虚拟环境）有许多独特优势，尤其在多项目管理、依赖处理和跨平台兼容性等方面表现更优。以下是 Conda 的核心好处： 一、一站式环境管理&#xff1a…...

编程新知 2025/11/29 6:54:19

装饰模式（Decorator Pattern）重构java邮件发奖系统实战

前言现在我们有个如下的需求，设计一个邮件发奖的小系统， 需求 1.数据验证 → 2. 敏感信息加密 → 3. 日志记录 → 4. 实际发送邮件装饰器模式（Decorator Pattern）允许向一个现有的对象添加新的功能，同时又不改变其…...

编程新知 2026/2/8 4:37:00

模型参数、模型存储精度、参数与显存

模型参数量衡量单位 M：百万（Million） B：十亿（Billion） 1 B 1000 M 1B 1000M 1B1000M 参数存储精度模型参数是固定的，但是一个参数所表示多少字节不一定，需要看这个参数以什么…...

编程新知 2025/12/20 12:32:08

FFmpeg 低延迟同屏方案

引言在实时互动需求激增的当下，无论是在线教育中的师生同屏演示、远程办公的屏幕共享协作，还是游戏直播的画面实时传输，低延迟同屏已成为保障用户体验的核心指标。FFmpeg 作为一款功能强大的多媒体框架，凭借其灵活的编解码、数据…...

编程新知 2025/11/4 6:26:59

前面是指南，后面是日志 sudo dnf config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo sudo dnf install docker-ce docker-ce-cli containerd.io -y docker version sudo systemctl start docker sudo systemctl status docker …...

编程新知 2025/7/27 10:03:12