当前位置：首页 > news >正文

强化学习RL 02: Value-based Reinforcement Learning

news 2026/2/7 14:16:14

DQN和TD更新算法。

Review

1. Deep Q-Network(DQN)

1.1 Approximate the Q*(s,a) Function

1.2 Apply DQN to Play Game

1.3 Temporal Difference(TD) Learning

1.4 TD Learning for DQN

1.4.1 TD使用条件 condition

1.4.2 Train DQN using TD learning

1.5 summary: DQN and TD learning

参考

Review

Ut是未来奖励reward的加权和
Qπ(st, at)可以反应当前状态st下动作at的好坏程度。
对Qπ关于π求最大化，Q*函数可以给所有动作打分。

1. Deep Q-Network(DQN)

本质：用神经网络近似Q*函数

1.1 Approximate the Q*(s,a) Function

Goal: Win the game(≈ maximize the total world.)

Question: If we know Q*(s, a), what is the best action? 假设我们知道Q*函数

Q* is an indication for how good it is for an agent to pick action a while being in state s.

Challenge: we do not know Q*(s, a)函数

value-based model，就是学习一个函数来近似Q*函数。--> DQN

Solution: Deep Q Network (DQN)
Use neural network Q(s, a; w) to approximate Q*(s, a)

用一个神经网络去近似Q*(s,a)函数，神经网络参数是w、输入是s、输出是很多数值(这些数值是对所有可能动作的打分)，通过奖励reward来学习这个网络，这个网络对动作的打分就会逐渐改进，打分会越来越准。

1.2 Apply DQN to Play Game

当前观测到状态st，用DQN把st作为输入给所有的动作actions打分，选出分数最高的动作作为at，agent执行动作at后，
environment会改变状态S，用状态转移函数p来随机抽一个新的状态st+1，还会告诉我们这一步的奖励rt(rt可以是正的、负的、0)。
奖励reward就是强化学习中的监督信号，DQN要靠这些奖励来训练。
有了新的状态st+1，DQN对所有动作进行打分，agent选择分数最高的动作作为at+1。at+1后，环境会再更新状态st+2、再给一个奖励r+1。
然后重复这个过程，直到游戏结束。

how to train a DQN？

1.3 Temporal Difference(TD) Learning

TD算法，时间差分算法。

challenge: Can I update the model before finishing the trip?

TD 算法。

TD target。
TD error。
用梯度下降来减小TD error

1.4 TD Learning for DQN

1.4.1 TD使用条件 condition

证明：

左边称为Prediction；右边称为TD target。

1.4.2 Train DQN using TD learning

agent在t+1时刻的动作at+1，DQN对所有动作a进行打分，分数最高的动作作为at+1。

注意，这里的a不等于at。

1.5 summary: DQN and TD learning

参考

1. 王树森~强化学习 Reinforcement Learning

2. https://www.cnblogs.com/pinard/category/1254674.html

强化学习RL 02: Value-based Reinforcement Learning

DQN和TD更新算法。目录 Review 1. Deep Q-Network(DQN) 1.1 Approximate the Q*(s,a) Function 1.2 Apply DQN to Play Game 1.3 Temporal Difference(TD) Learning 1.4 TD Learning for DQN 1.4.1 TD使用条件 condition 1.4.2 Train DQN using TD learning 1.5 summ…...

编程日记 2023/2/28 4:35:27

08_MySQL聚合函数

1. 聚合函数介绍什么是聚合函数聚合函数作用于一组数据，并对一组数据返回一个值。聚合函数类型AVG()SUM()MAX()MIN()COUNT()注意：聚合函数不能嵌套调用。比如不能出现类似“AVG(SUM(字段名称))”形式的调用。1.1 AVG和SUM函数可以对数值型数据使用AVG 和…...

编程日记 2023/2/28 4:34:20

「TCG 规范解读」词汇表

可信计算组织（Ttrusted Computing Group,TCG）是一个非盈利的工业标准组织，它的宗旨是加强在相异计算机平台上的计算环境的安全性。TCG于2003年春成立，并采纳了由可信计算平台联盟（the Trusted Computing Platform Alli…...

编程日记 2023/2/28 4:33:10

第三阶段-03MyBatis 中使用XML映射文件详解

MyBatis 中使用XML映射文件什么是XML映射使用注解的映射SQL的问题： 长SQL需要折行，不方便维护动态SQL查询拼接复杂源代码中的SQL，不方便与DBA协作 MyBatis建议使用XML文件映射SQL才能最大化发挥MySQL的功能统一管理SQL， 方…...

编程日记 2023/2/28 4:32:01

从0开始学python -41

Python3 命名空间和作用域命名空间先看看官方文档的一段话： A namespace is a mapping from names to objects.Most namespaces are currently implemented as Python dictionaries。命名空间(Namespace)是从名称到对象的映射，大部分的命名空间都是…...

编程日记 2023/2/28 4:30:54

如何将Google浏览器安装到D盘（内含教学视频）

如何将Google浏览器安装到D盘（内含教学视频） 教学视频下载链接地址：https://download.csdn.net/download/weixin_46411355/87503968 目录如何将Google浏览器安装到D盘（内含教学视频）教学视频下载链接地址：…...

编程日记 2023/2/28 4:29:47

三战阿里测试岗，成功上岸，面试才是测试员涨薪真正的拦路虎...

第一次面试阿里记得是挂在技术面上，当时也是技术不扎实，准备的不充分，面试官出的面试题确实把我问的一头雾水，还没结束我就已经知道我挂了这次面试。第二次面试，我准备的特别充分，提前刷了半个月的面试题…...

编程日记 2023/2/28 4:28:40

Java代码弱点与修复之——ORM persistence error(对象关系映射持久错误)

弱点描述 ORM persistence error, ORM 持久化错误。表示 ORM 工具在尝试将对象保存到数据库中时出现了问题。可能的原因包括：数据库连接错误：ORM 工具无法连接到数据库，或者连接到数据库的权限不足。数据库表结构错误：ORM 工具无法正确映射对象和数据库表之间的关系，可…...

编程日记 2023/2/28 4:27:33

原始GAN-pytorch-生成MNIST数据集（原理）

文章目录1. GAN 《Generative Adversarial Nets》1.1 相关概念1.2 公式理解1.3 图片理解1.4 熵、交叉熵、KL散度、JS散度1.5 其他相关（正在补充！）1. GAN 《Generative Adversarial Nets》 Ian J. Goodfellow, Jean Pouget-Abadie, Yoshua Be…...

编程日记 2023/2/28 4:26:26

Vue下载安装步骤的详细教程(亲测有效) 1

目录一、【准备工作】nodejs下载安装(npm环境) 1 下载安装nodejs 2 查看环境变量是否添加成功 3、验证是否安装成功 4、修改模块下载位置 （1）查看npm默认存放位置 （2）在 nodejs 安装目录下，创建 “node_global…...

编程日记 2023/2/28 4:25:20

[Android Studio] Android Studio生成数字证书，为应用签名

🟧🟨🟩🟦🟪 Android Debug🟧🟨🟩🟦🟪 Topic 发布安卓学习过程中遇到问题解决过程，希望我的解决方案可以对小伙伴们有帮助。 📋笔记目…...

编程日记 2023/2/28 4:24:12

应用IC 卡继续教育网络管理系统前后影响因素比较

3.1 实现了继续护理教育网络化管理近年来，随着一些医院继续护理教育管理信息系统的建立，有效改进了学分档案管理模式和教学模式，但这些继续护理教育管理信息系统一般为局域网，仅能达到满足自身管理的基本需求，而系统如…...

编程日记 2023/2/28 4:23:03

Clickhouse学习(一):MergeTree概述

MergeTree一、Clickhouse表引擎概述二、MergeTree表引擎<一>、ReplacingMergeTree引擎<二>、SummingMergeTree引擎<三>、AggregatingMergeTree引擎三、MergeTree分区一、Clickhouse表引擎概述 MergeTree表引擎:允许根据日期和主键创建索引 1、ReplacingMerge…...

编程日记 2023/2/28 4:21:58

Windows离线安装rust

目前rust安装常用的方式就是通过Rustup安装，此安装方式需要访问互联网。在生产环境中由于网络限制，不能直接访问互联网或者不能访问目标网站，这时候需要用离线安装的方式，本文将详细介绍离线安装步骤，并给出了vscode如…...

编程日记 2023/2/28 4:20:52

Android与flutter混合开发

这里我使用的android studio版本是2020.3.1；flutter版本2.5.3。此前在网上搜索的很多教教程版本都不一样，新版的IDE和SDK让我遇到了很多坑故这里整理一下。一、创建项目1.在Android项目中点击File->New->New Flutter Project。File->New->Ne…...

编程日记 2023/2/28 4:19:44

Linux和C语言的学习方法你真的知道吗？

★Linux的使用第一天，就给我们讲了为什么要先学c、学linux：因为嵌入式的根本就是软件驱动硬件，而C语言是最接近硬件的语言、有指针的概念、可以直接操作硬件，另外，功能复杂的硬件是含有操作系统的，这就需…...

编程日记 2023/2/28 4:18:39

代码随想录day42

1049. 最后一块石头的重量 II https://leetcode.cn/problems/last-stone-weight-ii/ 这个自己还是没想出来01背包对应。本题其实就是尽量让石头分成重量相同的两堆，相撞之后剩下的石头最小，这样就化解成01背包问题了。 stones [2,7,4,1,8,1]也就是sum…...

编程日记 2023/2/28 4:17:33

【笔记】两台1200PLC进行S7 通信（1）

使用两台1200系列PLC进行S7通信（入门） 文章目录目录文章目录前言一、通信 1.概念 2.PLC通信 1.串口 2.网口 …...

编程日记 2023/2/28 4:16:27

统一网关Gateway

为什么需要网关网关功能： 身份认证和权限校验服务路由，负载均衡根据请求判断找到对应的服务路由，然后服务可能有多个实例，这个时候网关就会做一个负载均衡去挑选一个实例调用.请求限流限制请求的数量，这是微服务的…...

编程日记 2023/2/28 4:15:20

6、kubernetes（k8s）安装

本文内容以语雀为准文档等等，Docker 被 Kubernetes 弃用了?容器运行时端口和协议kubeadm initkubeadm config安装网络策略驱动使用 kubeadm 创建集群控制平面节点隔离持久卷为容器设置环境变量在CentOS上安装Docker引擎Pod 网络无法访问排查处理说明本文…...

编程日记 2023/2/28 4:14:13

19c补丁后oracle属主变化，导致不能识别磁盘组

补丁后服务器重启，数据库再次无法启动 ORA01017: invalid username/password; logon denied Oracle 19c 在打上 19.23 或以上补丁版本后，存在与用户组权限相关的问题。具体表现为，Oracle 实例的运行用户（oracle）和集…...

编程新知 2026/2/5 4:49:43

多模态2025：技术路线“神仙打架”，视频生成冲上云霄

文｜魏琳华编｜王一粟一场大会，聚集了中国多模态大模型的“半壁江山”。智源大会2025为期两天的论坛中，汇集了学界、创业公司和大厂等三方的热门选手，关于多模态的集中讨论达到了前所未有的热度。其中，…...

编程新知 2026/2/1 10:59:33

K8S认证|CKS题库+答案| 11. AppArmor

目录 11. AppArmor 免费获取并激活 CKA_v1.31_模拟系统题目开始操作： 1）、切换集群 2）、切换节点 3）、切换到 apparmor 的目录 4）、执行 apparmor 策略模块 5）、修改 pod 文件 6）、…...

编程新知 2026/1/29 2:11:35

Oracle查询表空间大小

1 查询数据库中所有的表空间以及表空间所占空间的大小 SELECTtablespace_name,sum( bytes ) / 1024 / 1024 FROMdba_data_files GROUP BYtablespace_name; 2 Oracle查询表空间大小及每个表所占空间的大小 SELECTtablespace_name,file_id,file_name,round( bytes / ( 1024 …...

编程新知 2025/11/8 0:24:13

循环冗余码校验CRC码算法步骤+详细实例计算

通信过程：（白话解释） 我们将原始待发送的消息称为 M M M，依据发送接收消息双方约定的生成多项式 G ( x ) G(x) G(x)（意思就是 G （ x ) G（x) G（x) 是已知的）&#xff0…...

编程新知 2026/1/26 19:25:32

Mybatis逆向工程，动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件

今天呢，博主的学习进度也是步入了Java Mybatis 框架，目前正在逐步杨帆旗航。那么接下来就给大家出一期有关 Mybatis 逆向工程的教学，希望能对大家有所帮助，也特别欢迎大家指点不足之处，小生很乐意接受正确的建议&…...

编程新知 2026/1/31 15:00:15

Python爬虫实战：研究feedparser库相关技术

1. 引言 1.1 研究背景与意义在当今信息爆炸的时代，互联网上存在着海量的信息资源。RSS（Really Simple Syndication）作为一种标准化的信息聚合技术，被广泛用于网站内容的发布和订阅。通过 RSS，用户可以方便地获取网站更新的内容，而无需频繁访问各个网站。然而，互联网…...

编程新知 2025/8/18 9:54:31

Auto-Coder使用GPT-4o完成：在用TabPFN这个模型构建一个预测未来3天涨跌的分类任务

通过akshare库，获取股票数据，并生成TabPFN这个模型可以识别、处理的格式，写一个完整的预处理示例，并构建一个预测未来 3 天股价涨跌的分类任务用TabPFN这个模型构建一个预测未来 3 天股价涨跌的分类任务，进行预测并输…...

编程新知 2025/9/20 4:34:47

2025 后端自学UNIAPP【项目实战：旅游项目】6、我的收藏页面

代码框架视图 1、先添加一个获取收藏景点的列表请求【在文件my_api.js文件中添加】 // 引入公共的请求封装 import http from ./my_http.js// 登录接口（适配服务端返回 Token） export const login async (code, avatar) > {const res await http…...

编程新知 2026/1/29 11:40:13

Python Ovito统计金刚石结构数量

大家好，我是小马老师。本文介绍python ovito方法统计金刚石结构的方法。 Ovito Identify diamond structure命令可以识别和统计金刚石结构，但是无法直接输出结构的变化情况。本文使用python调用ovito包的方法，可以持续统计各步的金刚石结构，具体代码如下： from ovito…...

编程新知 2026/1/26 5:39:08

Review

1. Deep Q-Network(DQN)

1.1 Approximate the Q*(s,a) Function

1.2 Apply DQN to Play Game

1.3 Temporal Difference(TD) Learning

1.4 TD Learning for DQN

1.4.1 TD使用条件 condition

1.4.2 Train DQN using TD learning

1.5 summary: DQN and TD learning

参考

相关文章：