当前位置：首页 > news >正文

【强化学习】基础概念

news 2026/2/8 6:56:17

1. Agent (智能体)

智能体是进行决策和学习的实体，它能感知环境的状态，并基于策略采取动作以影响环境。智能体的目标是通过与环境的交互获得最大化的累积奖励。

2. Environment (环境)

环境是智能体所处的外部系统，它与智能体交互。环境的状态可能对智能体可见（如游戏中的棋盘状态），也可能对智能体不可见（如对手的策略）。

例如：在无人驾驶中智能体是无人驾驶系统，环境则是汽车本身、其他的汽车及建筑等。

他们之间关系如下：

3. Action (动作)

动作是智能体基于观察到的状态所做出的决策或行为，影响环境的转移。动作可以是离散的（如移动棋子）或连续的（如调整机器人的速度）。

4. Reward (奖励)

奖励是环境提供的数值反馈，用于评估智能体的动作质量。智能体的目标是通过选择动作最大化长期累积的奖励。

5. History (历史)

历史是指在交互过程中智能体观察到的状态、执行的动作和获得的奖励的序列。它是智能体进行决策的依据。

6. State (状态)

状态是描述环境的特定情况或配置的信息。智能体状态（Agent State）指其内部的信息，而环境状态（Environment State）指外部的环境信息。

有时候智能体状态可能会等同于环境状态，相当于开了上帝视角（没有战争迷雾），这时候两个state等同。

7. Policy (策略)

策略是智能体在特定状态下选择动作的规则或概率分布。良好的策略能使智能体获得更高的奖励。

我们一般用 $\pi$ 来表示，表示在state下采取什么action（从 state 到 action的函数）。

8. Return (回报)

回报是指智能体在一个决策序列中获得的奖励的总和，可以用来评估策略的好坏以及选择最优策略。回报可以选择计算总奖励、折扣奖励以及平均奖励。

当游戏没有具体的轮次时，不确定时间，通常采用折扣奖励：

9. Model and State Transition (模型与状态转移)

模型是对环境的内部表示，用于预测状态转移和奖励。状态转移指从一个状态到另一个状态的转变过程。

10. Exploration and Exploitation (探索与利用)

在强化学习中，智能体需要在已知最佳动作的基础上进行利用以获得奖励，同时也需要探索未知动作以发现更优的策略。

Exploration 可以发现更多关于环境的信息

Exploitation 利用已知信息实现回报最大化

（我们需要定义一个概率使得模型进行随机探索，初期时占比应该更大一点。）

11. Model Free and Model Based (无模型学习与基于模型学习)

强化学习可以分为无模型学习，即不依赖模型直接学习策略，和基于模型学习，即利用环境模型进行规划和学习。

12. On-policy and off-policy (在策略和离策略)

在线策略方法（On-policy）是指智能体在学习过程中采用与它当前策略相符的样本进行学习。

（每一轮迭代的样本都直接拿来训练。）

离线策略方法（Off-policy）允许智能体从与其当前策略不符的样本中学习。

（具有经验缓冲区，可以随机抽样来训练。）

13. Classification of RL (强化学习分类)

13-1. Value based (基于值的方法)
- 这类方法主要关注值函数的学习，如Q-Learning、DQN等。
13-2. Policy based (基于策略的方法)
- 这类方法直接学习最优策略，如策略梯度算法等。
13-3. Actor-Critic (演员-评论家方法)
- 这类方法结合了值函数和策略的学习，同时使用演员（Actor）学习策略，评论家（Critic）学习值函数。

【强化学习】基础概念

1. Agent (智能体) 智能体是进行决策和学习的实体，它能感知环境的状态，并基于策略采取动作以影响环境。智能体的目标是通过与环境的交互获得最大化的累积奖励。 2. Environment (环境) 环境是智能体所处的外部系统，它与智能体交互。环境的…...

编程日记 2023/10/1 9:55:10

云原生Kubernetes：K8S集群各组件服务重启

目录一、理论 1.各组件服务重启命令一、理论 1.各组件服务重启命令 （1）Master节点Node节点共同服务 systemctl restart etcd systemctl daemon-reload systemctl enable flanneld systemctl restart flanneld （2）Master节…...

编程日记 2023/10/1 9:53:07

闲话Python编程-循环

1. for循环 Python的for语句有点特别，只能对序列和字符串进行处理，序列自然包括list、tuple和range对象。 #!/usr/bin/env python3 # -*- coding: utf-8 -*- # 练习for语句def loop_for():names [Tom, Jack, Black]for name in names:print(name)s ab…...

编程日记 2023/10/1 9:49:03

建筑能源管理（3）——建筑能源监管

为了全面落实科学发展观，提高建筑能源管理水平，进一步降低能源和水资源消耗、合理利用资源，以政府办公建筑和大型公共建筑的运行节能管理为突破口，建立了既有政府办公建筑和大型公共建筑运行节能监管体系，旨在提高政府…...

编程日记 2023/10/1 9:43:57

中国逐年干燥度指数数据集

简介： 中国逐年干燥度指数，空间分辨率为1km，时间为1901-2022，为比值，没有单位。该数据集是基于中国1km逐月潜在蒸散发（PET）和降水量（PRE）采用比值法计算式得到&#xff…...

编程日记 2023/10/1 9:42:56

Azure Arc 概要：功能、管理和应用场景详解，AZ900 考点示例

文章目录本文大纲一、什么是 Azure Arc二、使用 Azure Arc 可以做什么操作三、使用 Azure Arc 可以管理什么资源3.1 如何使用Azure Arc与服务器? 四、Azure Arc 支持的主要场景五、在 AZ900 中的考点示例5.1 示例题 15.2 示例题 2 本文大纲本文思维导图概述的主要内容&…...

编程日记 2023/10/1 9:39:52

JavaScript Web APIs第一天笔记

复习： splice() 方法用于添加或删除数组中的元素。 **注意：**这种方法会改变原始数组。删除数组： splice(起始位置， 删除的个数) 比如：1 let arr [red, green, blue] arr.splice(1,1) // 删除green元素 consol…...

编程日记 2023/10/1 9:38:51

十六.镜头知识之工业镜头的质量判断因素

十六.镜头知识之工业镜头的质量判断因素文章目录十六.镜头知识之工业镜头的质量判断因素1.分辨率(Resolution)2.明锐度(Acutance)3.景深(DOF)：4. 最大相对孔径与光圈系数5.工业镜头各参数间的相互影响关系5.1.焦距大小的影响情况5.2.光圈大小的影响情况5.3.像场中…...

编程日记 2023/10/1 9:33:45

网络协议--概述

1.2 分层网络协议通常分不同层次进行开发，每一层分别负责不同的通信功能。一个协议族，比如TCP/IP，是一组不同层次上的多个协议的组合。 TCP/IP通常被认为是一个四层协议系统，如图1-1所示。每一层负责不同的功能： 1.链…...

编程日记 2023/10/1 9:32:44

aarch64 平台 musl gcc 工具链手动编译方法

目标手动编译一个 aarch64 平台的 musl gcc 工具链 musl libc 与 glibc、uclibc 等，都是标准C 库， musl libc 是基于系统调用之上的标准C 库，也就是用户态的标准C 库。 musl libc 轻量、开源、免费，是一些操作系统的选择，当前 Lite-OS 与 RT-Smart 等均采用自制的 mu…...

编程日记 2023/10/1 9:30:41

计算机图像处理-高斯滤波

高斯滤波高斯滤波是一种线性平滑滤波，适用于消除高斯噪声，广泛应用于图像处理的减噪过程。通俗的讲，高斯滤波就是对整幅图像进行加权平均的过程，每一个像素点的值，都由其本身和邻域内的其他像素值经过加权平均后得到…...

编程日记 2023/10/1 9:29:39

lv5 嵌入式开发-9 信号机制（上）

目录 1 信号机制 2 信号的产生 3 常用信号 4 相关命令 4.1 信号相关命令 kill / killall 4.2 信号发送 – kill / raise 4.3 定时器函数相关函数 – alarm /ualarm/ pause 4.4 信号捕捉：设置信号响应方式 – signal /sigaction，闹钟实现 4.5 子…...

编程日记 2023/10/1 9:26:34

460. LFU 缓存

请你为最不经常使用（LFU）缓存算法设计并实现数据结构。实现 LFUCache 类： LFUCache(int capacity) - 用数据结构的容量 capacity 初始化对象int get(int key) - 如果键 key 存在于缓存中，则获取键的值，否则返回 -1…...

编程日记 2023/10/1 9:24:33

YOLOV8 C++ opecv_dnn模块部署

废话不多说:opencv>4.7.0 opencv编译不做解释，需要的话翻看别的博主的编译教程代码饱含V5,V7,V8部署内容头文件yoloV8.h #pragma once #include<iostream> #include<opencv2/opencv.hpp> using namespace std; using namespace cv; using name…...

编程日记 2023/10/1 9:23:31

STM32 DMA从存储器发送数据到串口

1.任务描述 （1）ds18b20测量环境温度存储到存储器（数组）中。 （2）开启DMA将数组中的内容，通过DMA发送到串口存在问题，ds18b20读到的数据是正常的，但是串口只是发送其低…...

编程日记 2023/10/1 9:21:29

Flask连接数据库返回json数据

常用方法: json.dumps(字典) 将python的字典转换为json字符串json.loads(字符串) 将字符串转换为python中的字典方法一:将python字典转化为json from flask import Flask import jsonapp Flask(__name__)app.route("/index") def index():# 返回json数据的方法…...

编程日记 2023/10/1 9:18:27

Openresty通过Lua+Redis 实现动态封禁IP

求背景为了封禁某些爬虫或者恶意用户对服务器的请求，我们需要建立一个动态的 IP 黑名单。对于黑名单之内的 IP ，拒绝提供服务。并且可以设置失效 1.安装Openresty（编译安装） wget https://openresty.org/download/openresty-1.…...

编程日记 2023/10/1 9:17:26

碎片笔记｜AIGC核心技术综述

前言：AIGC全称为AI-Generated Content，直译为人工智能内容生成。即采用人工智能技术来自动生产内容。AIGC在2022年的爆发，主要是得益于深度学习模型方面的技术创新。不断涌现的生成算法、预训练模型以及多模态等技术的融合引发了AIGC的技术变…...

编程日记 2023/10/1 9:15:22

28385-2012 印刷机械锁线机学习笔记

声明本文是学习GB-T 28385-2012 印刷机械锁线机. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 1 范围本标准规定了锁线机的型式、基本参数、要求、试验方法、检验规则、标志、包装、运输与贮存。本标准适用于用线将书帖装订成书芯的锁线机。 …...

编程日记 2023/10/1 9:14:21

【大规模 MIMO 检测】基于ADMM的大型MU-MIMO无穷大范数检测研究（Matlab代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…...

编程日记 2023/10/1 9:11:16

网络编程（Modbus进阶）

思维导图 Modbus RTU（先学一点理论） 概念 Modbus RTU 是工业自动化领域最广泛应用的串行通信协议，由 Modicon 公司（现施耐德电气）于 1979 年推出。它以高效率、强健性、易实现的特点成为工业控制系统的通信标准。包…...

编程新知 2026/2/7 23:18:34

边缘计算医疗风险自查APP开发方案

核心目标：在便携设备（智能手表/家用检测仪）部署轻量化疾病预测模型，实现低延迟、隐私安全的实时健康风险评估。一、技术架构设计 #mermaid-svg-iuNaeeLK2YoFKfao {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg…...

编程新知 2026/1/28 10:02:54

UE5 学习系列（三）创建和移动物体

这篇博客是该系列的第三篇，是在之前两篇博客的基础上展开，主要介绍如何在操作界面中创建和拖动物体，这篇博客跟随的视频链接如下： B 站视频：s03-创建和移动物体如果你不打算开之前的博客并且对UE5 比较熟的话按照以…...

编程新知 2026/1/24 10:00:31

《用户共鸣指数（E）驱动品牌大模型种草：如何抢占大模型搜索结果情感高地》

在注意力分散、内容高度同质化的时代，情感连接已成为品牌破圈的关键通道。我们在服务大量品牌客户的过程中发现，消费者对内容的“有感”程度，正日益成为影响品牌传播效率与转化率的核心变量。在生成式AI驱动的内容生成与推荐环境中&#xff0…...

编程新知 2026/2/2 1:48:09

智能在线客服平台：数字化时代企业连接用户的 AI 中枢

随着互联网技术的飞速发展，消费者期望能够随时随地与企业进行交流。在线客服平台作为连接企业与客户的重要桥梁，不仅优化了客户体验，还提升了企业的服务效率和市场竞争力。本文将探讨在线客服平台的重要性、技术进展、实际应用，并…...

编程新知 2026/2/4 17:51:19

Spring Boot面试题精选汇总

🤟致敬读者 🟩感谢阅读🟦笑口常开🟪生日快乐⬛早点睡觉 📘博主相关 🟧博主信息🟨博客首页🟫专栏推荐🟥活动信息文章目录 Spring Boot面试题精选汇总⚙️ **一、核心概…...

编程新知 2025/9/24 23:08:17

数据库分批入库

今天在工作中，遇到一个问题，就是分批查询的时候，由于批次过大导致出现了一些问题，一下是问题描述和解决方案： 示例： // 假设已有数据列表 dataList 和 PreparedStatement pstmt int batchSize 1000; // …...

编程新知 2026/1/8 11:38:36

Unsafe Fileupload篇补充-木马的详细教程与木马分享（中国蚁剑方式）

在之前的皮卡丘靶场第九期Unsafe Fileupload篇中我们学习了木马的原理并且学了一个简单的木马文件本期内容是为了更好的为大家解释木马（服务器方面的）的原理，连接，以及各种木马及连接工具的分享文件木马：https://w…...

编程新知 2026/1/25 10:13:29

初探Service服务发现机制

1.Service简介 Service是将运行在一组Pod上的应用程序发布为网络服务的抽象方法。主要功能：服务发现和负载均衡。 Service类型的包括ClusterIP类型、NodePort类型、LoadBalancer类型、ExternalName类型 2.Endpoints简介 Endpoints是一种Kubernetes资源&#xf…...

编程新知 2026/2/6 15:01:23

【JVM面试篇】高频八股汇总——类加载和类加载器

目录 1. 讲一下类加载过程？ 2. Java创建对象的过程？ 3. 对象的生命周期？ 4. 类加载器有哪些？ 5. 双亲委派模型的作用（好处）？ 6. 讲一下类的加载和双亲委派原则？ 7. 双亲委派模…...

编程新知 2026/1/31 11:18:29