当前位置：首页 > news >正文

强化学习核心概念与公式总结

news 2026/3/5 16:24:14

强化学习核心概念与公式总结

1. 核心概念

1.1 智能体(Agent)和环境(Environment)

智能体：学习和做决策的实体
环境：智能体交互的外部系统

1.2 状态(State)

描述环境在特定时刻的情况

1.3 动作(Action)

智能体可以执行的操作

1.4 奖励(Reward)

环境对智能体动作的即时反馈

1.5 策略(Policy)

定义智能体在给定状态下应采取的动作

1.6 价值函数(Value Function)

评估状态或动作的长期价值

1.7 Q函数(Q-function)

特殊的价值函数，评估状态-动作对的价值

1.8 探索与利用(Exploration vs Exploitation)

在尝试新动作和利用已知好动作之间取得平衡

1.9 回合(Episode)

从初始状态到终止状态的完整交互序列

1.10 折扣因子(Discount Factor)

决定未来奖励的重要性

2. 关键公式

2.1 策略(Policy)

确定性策略

$\pi(s)$

随机策略

$\pi(a|s) = P(A_t = a | S_t = s)$

2.2 价值函数(Value Function)

状态价值函数

$V_\pi(s) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s]$

动作价值函数(Q函数)

$Q_\pi(s,a) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s, A_t = a]$

强化学习核心概念与公式总结

强化学习核心概念与公式总结 1. 核心概念 1.1 智能体(Agent)和环境(Environment) 智能体：学习和做决策的实体环境：智能体交互的外部系统1.2 状态(State) 描述环境在特定时刻的情况1.3 动作(Action) 智能体可以执行的操作1.4 奖励(Reward) 环境对智能体动作的即时反馈1.5 策…...

编程日记 2024/10/2 4:55:41

基础算法--双指针【概念＋图解＋题解＋解释】

更多精彩内容..... 🎉❤️播主の主页✨😘 Stark、-CSDN博客本文所在专栏： 数据结构与算法_Stark、的博客-CSDN博客其它专栏： 学习专栏C语言_Stark、的博客-CSDN博客项目实战C系列_Stark、的博客-CSDN博客座右铭&a…...

编程日记 2024/10/2 4:54:40

国产化系统/鸿蒙开发足浴店收银源码-收缩左侧———未来之窗行业应用跨平台架构

一、左侧展开后二、代码 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"> <html> <head><title></title><meta http-equiv"Content-Type" content"text/html; charsetUTF-8"><style t…...

编程日记 2024/10/2 4:52:38

如何从硬盘恢复丢失/删除的视频

您是否想知道是否可以恢复已删除的视频？ 幸运的是，您可以使用奇客数据恢复从硬盘驱动器、SD 卡和 USB 闪存驱动器恢复已删除的视频文件。你有没有遇到过这样的情况：当你随机删除文件以释放空间时，你不小心按下了一些重要视频的…...

编程日记 2024/10/2 4:51:37

《Effective C++》第三版——设计与声明（1）

参考资料： 《Effective C》第三版注意：《Effective C》不涉及任何 C11 的内容，因此其中的部分准则可能在 C11 出现后有更好的实现方式。条款 18：让接口容易被正确使用，不易被误用好的接口很容易被正确使用&…...

编程日记 2024/10/2 4:48:35

数值计算的程序设计问题举例

### 数值计算的程序设计问题 #### 1. 结构静力分析计算 **涉及领域**：工程力学、建筑工程 **主要问题**：线性代数方程组（Linear Algebraic Equations） **解释说明**： 在结构静力分析中，我们需要解决复杂的…...

编程日记 2024/10/2 4:47:33

Java之方法的使用

修饰符返回值方法名称（形式参数）{ } 当无参数的时候形式参数中什么都不写。列如求两个数相加修饰符可有可无。方法重载： 1.方法名相同 2.参数列表不同 3。返回值不影响重载...

编程日记 2024/10/2 4:45:32

sudo 命令：掌握系统权限控制，实现安全高效管理

一、命令简介 sudo 命令允许系统管理员授权普通用户执行特定命令，并以管理员身份运行这些命令，通常需要输入用户自己的密码。 sudo 全称是"substitute user do"，意为“替用户做”，也就是“以另一个用户的身…...

编程日记 2024/10/2 4:43:30

AndroidStudio导入so文件

点击app 右键依次选择New-Floder-JNI Floder 创建jni目录将需要的so文件拷贝到jni目录在app目录下，build.gradle文件的android{}中添加： sourceSets {main{jniLibs.srcDirs [src/main/jni]}}点击一下Sync Project with Gradle Files 然后编译生成AP…...

编程日记 2024/10/2 4:42:29

Kuebernetes 群集基于 Docker 部署

Kuebernetes 群集基于 Docker 部署实验报告资源列表基础环境一、准备 Docker1、安装 Docker 二、安装 Kubeadm 工具1、配置 yum 源2、安装 Kubeadm 工具三、初始化 Master 节点1、配置 Master 节点2、常见故障四、Node 节点加入集群五、部署网络插件（CNI&#xf…...

编程日记 2024/10/2 4:40:27

追随 HarmonyOS NEXT，Solon v3.0 将在10月8日发布

Solon （开放原子开源基金会，孵化项目）原计划10月1日发布 v3.0 正式版。看到 HarmonyOS NEXT 将在 10月8日启用公测，现改为10月8日发布以示庆贺。另外，Solon 将在2025年启动“仓颉”版开发（届时，…...

编程日记 2024/10/2 4:39:26

服装时尚与动漫游戏的跨界联动：创新运营与策划策略研究

摘要：本论文聚焦于服装时尚与动漫游戏的跨界联动现象，深入探讨其在运营和策划方向的策略与实践。通过对相关理论的梳理和实际案例的分析，阐述了跨界联动的背景、意义、模式以及面临的挑战。研究发现，成功的跨界联动能够实现品牌价…...

编程日记 2024/10/2 4:37:24

Redis中String类型的常用命令(append,getrenge,setrange等命令)

Redis----String命令前言.常见的String存储类型. 常见命令1. set 命令2. get 命令3. mget命令与mset命令4. setnx命令5. setex与psetex命令6. incr与incrby与incrbyfloat命令7. decr与decrby命令8. append命令9. getrange和setrange命令10. strlen命令. 前言. 常见的String存…...

编程日记 2024/10/2 4:36:23

深度拆解：如何在Facebook上做跨境电商？

国内社交媒体正在逐渐兴盛，海外也不例外。在数字营销的新时代，Facebook已成为跨境电商不可或缺的平台之一。通过Facebook的巨大流量，卖家可以更好的触及潜在消费者，以实现销售增长。本文就深度拆解一下，卖家如何利用Fb…...

编程日记 2024/10/2 4:35:21

为啥数据需转换成tensor才能参与后续建模训练

将数据转换为Tensor（张量）格式用于深度学习和机器学习模型训练，主要是出于以下几个关键原因： 数值计算的效率：Tensor（由PyTorch、TensorFlow等库提供）是在GPU上执行高效的数值运算的数据结构。相…...

编程日记 2024/10/2 4:34:21

leetcode:380. O(1) 时间插入、删除和获取随机元素

实现RandomizedSet 类： RandomizedSet() 初始化 RandomizedSet 对象bool insert(int val) 当元素 val 不存在时，向集合中插入该项，并返回 true ；否则，返回 false 。bool remove(int val) 当元素 val 存在时&#xff0…...

编程日记 2024/10/2 4:32:18

Linux集群部署RabbitMQ

目录一、准备三台虚拟机，配置相同 1、所有主机都需要hosts文件解析 2、所有主机安装erLang和rabbitmq 3、修改配置文件 4、导入rabbitmq 的管理界面 5、查看节点状态 6、设置erlang运行节点 7、rabitmq2和rabbitmq3重启服务 8、查看各个节点状态二、添加…...

编程日记 2024/10/2 4:29:16

01DSP学习-了解DSP外设-以逆变器控制为例

(由于是回忆自己简单的DSP学习过程，所以博客看起来有些没有章法，请见谅~) 上一篇博客介绍了学习DSP需要的软件和硬件准备，以及一个DSP的工程包含了哪些东西。我的学习方法是目的导向，即我需要用什么我就学什么，并没有…...

编程日记 2024/10/2 4:25:13

【ArcGIS Pro实操第三期】多模式道路网构建（Multi-model road network construction）原理及实操案例

ArcGIS Pro实操第三期：多模式道路网构建原理及实操案例 1 概述1.1 原理 2 GIS实操2.1 新建文件并导入数据2.2 创建网络数据集2.3 设置连接策略（Setting up connectivity policies）2.4 添加成本（Adding cost attributes&#xff09…...

编程日记 2024/10/2 4:21:09

深度学习基础及技巧

机器学习中的监督学习监督学习是通过对数据进行分析，找到数据的表达模型，对新输入的数据套用该模型做决策主要分为训练和预测两个阶段训练阶段：根据原始数据进行特征提取，然后使用决策树、随机森林等模型算法分析数据之间的特…...

编程日记 2024/10/2 4:20:09

未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？

编辑：陈萍萍的公主一点人工一点智能未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战，在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…...

编程新知 2026/3/5 15:45:51

iOS 26 携众系统重磅更新，但“苹果智能”仍与国行无缘

美国西海岸的夏天，再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至，这不仅是开发者的盛宴，更是全球数亿苹果用户翘首以盼的科技春晚。今年，苹果依旧为我们带来了全家桶式的系统更新，包括 iOS 26、iPadOS 26…...

编程新知 2026/3/3 1:28:48

HTML 列表、表格、表单

1 列表标签作用：布局内容排列整齐的区域列表分类：无序列表、有序列表、定义列表。例如： 1.1 无序列表标签：ul 嵌套 li，ul是无序列表，li是列表条目。注意事项： ul 标签里面只能包裹 li…...

编程新知 2026/2/23 4:30:23

Java多线程实现之Callable接口深度解析

Java多线程实现之Callable接口深度解析一、Callable接口概述1.1 接口定义1.2 与Runnable接口的对比1.3 Future接口与FutureTask类二、Callable接口的基本使用方法2.1 传统方式实现Callable接口2.2 使用Lambda表达式简化Callable实现2.3 使用FutureTask类执行Callable任务三、…...

编程新知 2026/2/20 21:27:50

MODBUS TCP转CANopen 技术赋能高效协同作业

在现代工业自动化领域，MODBUS TCP和CANopen两种通讯协议因其稳定性和高效性被广泛应用于各种设备和系统中。而随着科技的不断进步，这两种通讯协议也正在被逐步融合，形成了一种新型的通讯方式——开疆智能MODBUS TCP转CANopen网关KJ-TCPC-CANP…...

编程新知 2026/2/24 22:14:36

基于Docker Compose部署Java微服务项目

一. 创建根项目根项目（父项目）主要用于依赖管理一些需要注意的点： 打包方式需要为 pom<modules>里需要注册子模块不要引入maven的打包插件，否则打包时会出问题 <?xml version"1.0" encoding"UTF-8…...

编程新知 2026/3/4 15:44:54

什么是EULA和DPA

文章目录 EULA（End User License Agreement）DPA（Data Protection Agreement）一、定义与背景二、核心内容三、法律效力与责任四、实际应用与意义 EULA（End User License Agreement） 定义： EULA即…...

编程新知 2026/2/22 13:11:49

EtherNet/IP转DeviceNet协议网关详解

一，设备主要功能疆鸿智能JH-DVN-EIP本产品是自主研发的一款EtherNet/IP从站功能的通讯网关。该产品主要功能是连接DeviceNet总线和EtherNet/IP网络，本网关连接到EtherNet/IP总线中做为从站使用，连接到DeviceNet总线中做为从站使用。在自动…...

编程新知 2026/3/5 14:51:57

NFT模式：数字资产确权与链游经济系统构建

NFT模式：数字资产确权与链游经济系统构建 ——从技术架构到可持续生态的范式革命一、确权技术革新：构建可信数字资产基石 1. 区块链底层架构的进化跨链互操作协议：基于LayerZero协议实现以太坊、Solana等公链资产互通，通过零知…...

编程新知 2026/2/28 13:57:57

CMake控制VS2022项目文件分组

我们可以通过 CMake 控制源文件的组织结构，使它们在 VS 解决方案资源管理器中以“组”（Filter）的形式进行分类展示。 🎯 目标通过 CMake 脚本将 .cpp、.h 等源文件分组显示在 Visual Studio 2022 的解决方案资源管理器中。 ✅ 支持的方法汇总（共4种）方法描述是否推荐…...

编程新知 2026/2/20 20:39:39

强化学习核心概念与公式总结

1. 核心概念

1.1 智能体(Agent)和环境(Environment)

1.2 状态(State)

1.3 动作(Action)

1.4 奖励(Reward)

1.5 策略(Policy)

1.6 价值函数(Value Function)

1.7 Q函数(Q-function)

1.8 探索与利用(Exploration vs Exploitation)

1.9 回合(Episode)

1.10 折扣因子(Discount Factor)

2. 关键公式

2.1 策略(Policy)

确定性策略

随机策略

2.2 价值函数(Value Function)

状态价值函数

动作价值函数(Q函数)

相关文章：