当前位置: 首页 > news >正文

Stochastic Approximation 随机近似方法的详解之(三)Dvoretzky’s convergence theorem

定理内容

Theorem 6.2 (Dvoretzky’s Theorem). Consider a stochastic process
wk+1=(1−αk)wk+βkηkw_{k+1}=\left(1-\alpha_k\right) w_k+\beta_k \eta_kwk+1=(1αk)wk+βkηk,
其中{αk}k=1∞,{βk}k=1∞,{ηk}k=1∞\{\alpha_k\}^\infty_{k=1},\{\beta_k\}^\infty_{k=1},\{\eta_k\}^\infty_{k=1}{αk}k=1,{βk}k=1,{ηk}k=1都是随机序列。这里αk≥0,βk≥0{\alpha_k} \ge 0,{\beta_k} \ge 0αk0,βk0 对于所有的kkk都是成立的。那么 wkw_{k}wk would converge to zero with probability 1 if the following conditions are satisfied:
在这里插入图片描述

要点阐释

  1. RM算法里面的αk{\alpha_k}αk是确定性的。然而Dvoretzky’s Theorem中 αk,βk{\alpha_k},{\beta_k}αk,βk 可以是由Hk\mathcal H_kHk决定的随机变量。因此Dvoretzky’s Theorem 更加通用和强大。
  2. 对于uniformly w.p.1 的解释:
    在这里插入图片描述
  3. 不再要求观测误差项ηk\eta_kηk的系数βk\beta_kβk的收敛速度了,收敛的快也没有关系。
    在这里插入图片描述

证明在这里不展开,需要用到quasimartingales的知识

在这里插入图片描述

应用

证明Robbins-Monro theorem:
在这里插入图片描述

我们在等式两边同时减去目标根:
wk+1−w∗=wk−w∗−ak[g(wk)−g(w∗)+ηk]w_{k+1}-w^*=w_k-w^*-a_k\left[g\left(w_k\right)-g\left(w^*\right)+\eta_k\right]wk+1w=wkwak[g(wk)g(w)+ηk]

然后就有:(注意,下面用到了中值定理)

在这里插入图片描述

注意这里的αk\alpha_kαk不再是确定的了,而是由wk和wk′w_k和w_k'wkwk共同决定的随机序列。对照Dvoretzky’s convergence theorem成立的条件,发现都满足:
在这里插入图片描述

到这里也就证明了RM算法求解方程根的收敛性。

定理的扩展:

原定理只能解决单变量的问题,不够使啊。必须扩展一下,让它可以处理多变量。扩展后的Dvoretzky’s convergence theorem 可以用来分析一些随机迭代算法的收敛性:比如Q-learning和TD算法。

扩展后的定理的内容:
在这里插入图片描述

在这样的定义下,原先数值上的大小比较就变成了不同向量之间的max norm的比较。注意哈,Hk\mathcal H_kHk是历史数据序列。

顺便解释一下max norm:
在这里插入图片描述

定理扩展的一些说明

  1. 扩展后的定理比原定理更加通用。首先,由于最大范数(the maximum norm)的引入,它可以处理多元变量的情况,对于具有很多个状态的强化学习问题,这一点很重要。第二,相比于原定理对E[ek(x)∣Hk]=0\mathbb{E}\left[e_k(x) \mid \mathcal{H}_k\right]=0E[ek(x)Hk]=0 and var⁡[ek(x)∣Hk]≤C\operatorname{var}\left[e_k(x) \mid \mathcal{H}_k\right] \leq Cvar[ek(x)Hk]C的要求,this theorem only requires that the expectation and variance are bounded by the error ∆k。
  2. 虽然(6.9)只是针对单个状态,但它可以处理多个状态的原因是是因为条件3和4,它们是针对整个状态空间的。此外, 在应用该定理证明RL算法的收敛性时,我们需要表明(6.9)对每个状态都有效。

参考
https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning

相关文章:

Stochastic Approximation 随机近似方法的详解之(三)Dvoretzky’s convergence theorem

定理内容 Theorem 6.2 (Dvoretzky’s Theorem). Consider a stochastic process wk1(1−αk)wkβkηkw_{k1}\left(1-\alpha_k\right) w_k\beta_k \eta_kwk1​(1−αk​)wk​βk​ηk​, 其中{αk}k1∞,{βk}k1∞,{ηk}k1∞\{\alpha_k\}^\infty_{k1},\{\beta_k\}^\infty_{k1},\…...

7个ES6解构技巧让代码更简洁

您是否厌倦了编写臃肿且难以阅读的代码?想要提升您的编码技能并使您的代码更具可读性和简洁性? 从解构对象和数组到使用默认值和展开运算符,我们将涵盖所有内容,现在,我们将准备好掌握干净简洁的编码艺术。 1.解构对…...

曾经被人们看成是异想天开的产业互联网,或许终将会实现

一波还未平息,一波又起。元宇宙的热度还未彻底散去,ChatGPT已经成为了名符其实的新风口。如果用一个概念来定义现在这样一个热点和风口频出的时代的话,我想,用产业互联网或许是再合适不过的了。对此,可能有人并不认同。…...

log4j控制台不打印日志的故障解决方案

前言 接管了别的项目组的一个代码,在IDAE调试程序的过程中,发现log4j日志居然没有打印在控制台上,日志相关代码也没有问题。 在网上搜索了一圈,总结了一下个人解决这个问题的流程。 流程 1. 判断用了什么配置文件 不知道是出…...

C# 序列化时“检测到循环引用”错误的彻底解决方案

目录 一&#xff0c;问题表现 二、没有技术含量的解决方案 三、本人彻底的解决方案 简要说明 贴代码 思路解析 思路 一&#xff0c;问题表现 示例代码如下&#xff1a; [Serializable] public class NodeTest {public NodeTest (){new List<NodeTest> ();}p…...

小红书“复刻”微信,微信“内造”小红书

配图来自Canva可画 随着互联网增长红利逐渐见顶&#xff0c;各大互联网平台对流量的争夺变得愈发激烈。而为了寻找新的业务可能性&#xff0c;各家都在不遗余力地拓宽自身边界。在此背景下&#xff0c;目前最为“吸睛”和“吸金”的社交、电商、种草、短视频等领域&#xff0c…...

用arthas轻松排查线上问题

你是否在项目中会碰到以下一些问题&#xff1a; 在代码中打印各种日志来排查&#xff0c;比如方法的入参&#xff0c;出参&#xff0c;及在方法体中打印日志判断走哪行代码还有你觉得代码没问题&#xff0c;可是运行出现却是以前的bug&#xff0c;感觉代码没修改&#xff0c;或…...

mysql一explain结果分析

1. EXPLAIN简介 使用EXPLAIN关键字可以模拟优化器执行SQL查询语句&#xff0c;从而知道MySQL是如何处理你的SQL语句的。分析你的查询语句或是表结构的性能瓶颈。 ➤ 通过EXPLAIN&#xff0c;我们可以分析出以下结果&#xff1a; 表的读取顺序数据读取操作的操作类型哪些索引可…...

原理底层计划--HashMap

HashMap 之前写了“Java集合TreeMap红黑树一生只爱一次”&#xff0c;说到底还是太年轻了&#xff0c;Map其实在排序中应用比较少&#xff0c;一般追求的是速度&#xff0c;通过HashMap来获取速度。hashmap 调用object hashcode方法用于返回对象的哈希码&#xff0c;主要使用在…...

win10 设备管理器中的黄色感叹号(华硕)

目录一、前言二、原因三、方案四、操作一、前言 打开设备管理器&#xff0c;我们可以看到自己设备的信息&#xff0c;但是在重装系统后&#xff0c;你总会在不经意间发现。咦&#xff0c;怎么多了几个感叹号&#xff1f;&#xff1f;&#xff1f; 由于我已经解决该问题&#…...

新产品上市推广不是“铺货”上架

只有不断推出新产品的企业才能走得长远&#xff0c;但现实中往往有很多企业投入了大量人力、物力、财力研发的新产品却在推广的过程中屡屡受挫。那么&#xff0c;为什么适合市场的新产品会在市场营销推广的过程中夭折呢&#xff1f;小马识途营销顾问分析有如下几点&#xff1a;…...

MATLAB训练神经网络小结

MATLAB训练神经网络小结1、一个典型例子1.1 可视化神经网络1.2 指定某一层的激活函数1.3 训练神经网络时使用L1正则化1.4返回训练过程中的参数1.5 查看训练好的权重系数1.6 如何使用早停法来防止过拟合1、一个典型例子 例如输入特征为10维&#xff0c;想训练一个10x20x10x1的三…...

实战:一天开发一款内置游戏直播的国产版Discord应用【附源码】

游戏直播是Discord产品的核心功能之一&#xff0c;本教程教大家如何1天内开发一款内置游戏直播的国产版Discord应用&#xff0c;用户不仅可以通过IM聊天&#xff0c;也可以进行语聊&#xff0c;看游戏直播&#xff0c;甚至自己进行游戏直播&#xff0c;无任何实时音视频底层技术…...

嵌入式学习笔记——基于Cortex-M的单片机介绍

基于Cortex-M的单片机介绍前言生产厂商及其产品线ARM单片机的产品线命名规则留个作业习单片机的资料准备STM32开发所需手册1.芯片的数据手册作业2前言 本文继续接着上一篇中关于Cortex-M的介绍&#xff0c;来记录一些关于ARM系单片机的知识。 生产厂商及其产品线 芯片厂商在…...

Python 虚拟环境的使用

PyCharm 创建的虚拟环境与使用 workon 命令创建的虚拟环境在本质上没有区别&#xff0c;它们都是 Python 的虚拟环境。 使用 PyCharm 创建工程时&#xff0c;使用可以使用曾经工程的虚拟环境&#xff0c;或者新建一个虚拟环境来安装 Python 的库&#xff0c;又或者使用 workon…...

招生咨询|浙江大学MPA项目2023年招生问答与通知

问&#xff1a;报考浙江大学MPA的基本流程是怎么样的&#xff1f; 答&#xff1a;第一阶段为网上报名与确认。MPA考生须参加全国管理类联考&#xff0c;网上报名时间一般为10月初开始、10月下旬截止&#xff0c;错过网上报名时间后不能补报。确认时间一般为11月上旬&#xff0c…...

Qt std :: bad_alloc

文章目录摘要问题出现原因第一种 请求内存多余系统可提供内存第二种 地址空间过于分散&#xff0c;无法满足大块连续内存的请求第三种 堆管理数据结构损坏稍微总结下没想到还能更新参考关键字&#xff1a; std、 bad、 alloc、 OOM、 异常退出摘要 今天又是被BUG统治的一天&a…...

《设计模式》装饰者模式

《设计模式》装饰者模式 装饰者模式&#xff08;Decorator Pattern&#xff09;是一种结构型设计模式&#xff0c;它允许在不改变现有对象结构的情况下&#xff0c;动态地添加行为或责任到对象上。在装饰者模式中&#xff0c;有一个抽象组件&#xff08;Component&#xff09;…...

一文说清Kubernetes的本质

文章目录Kubernetes解决了什么问题&#xff1f;Kubernetes的全局架构Kubernetes的设计思想Kubernetes的核心功能Kubernetes如何启动一个容器化任务&#xff1f;Kubernetes解决了什么问题&#xff1f; 编排&#xff1f;调度&#xff1f;容器云&#xff1f;还是集群管理&#xf…...

信息发布小程序【源码好优多】

简介 信息发布小程序&#xff0c;实现数据与小程序数据同步共享&#xff0c;通过简单的配置就能搭建自己的小程序。&#xff0c;基于微信小程序开发的小程序。 这个框架比较简单就是用微信原生开发技术进行实现的&#xff0c;可以用于信息展示等相关信息。其中目前APP比较多&am…...

创新型中小企业申报流程

据工业和信息化部《优质中小企业梯度培育管理暂行办法》&#xff08;工信部企业〔2022〕63号&#xff09;和省《优质中小企业梯度培育管理实施细则》&#xff08;鲁工信发〔2022〕8号&#xff0c;以下简称《细则》&#xff09;&#xff0c;现就做好2022年山东省创新型中小企业评…...

【UE4 Cesium】加载离线地图

主体思路&#xff1a;先使用水经注软件下载瓦片数据&#xff0c;再使用Python转换瓦片数据格式&#xff08;TMS&#xff09;&#xff0c;使用Nginx发布网络服务&#xff0c;最后将网络服务加载到UE中。步骤&#xff1a;使用水经注下载瓦片数据&#xff0c;这里下载的是全球七级…...

Spring面试题

目录 Spring、Springmvc、Springboot的区别是什么 SpringMVC工作流程是什么 SpringMVC的九大组件有哪些 Spring的核心是什么 spring的事务传播机制是什么 Spring框架中的单例Bean是线程安全的么 spring框架中使用了哪些设计模式及应用场景 spring事务的隔离级别有哪些?…...

动态网站开发讲课笔记03:HTTP协议

文章目录零、本节学习目标一、HTTP概述&#xff08;一&#xff09;HTTP的概念1、HTTP的概念2、HTTP协议的特点&#xff08;1&#xff09;C/S模式&#xff08;2&#xff09;简单快速&#xff08;3&#xff09;灵活&#xff08;4&#xff09;无状态&#xff08;二&#xff09;HTT…...

2023年天津财经大学珠江学院专升本专业课考试题型

天津财经大学珠江学院关于2023年高职升本科专业课考试时间及题型一、专业课考试 &#xff08;一&#xff09;时间安排 2023年天津财经大学珠江学院高职升本科专业课考试定于2023年3月25日14&#xff1a;00-17:00进行&#xff0c;凡报考工商管理、旅游管理、税收学专业的考生&am…...

五方面提高销售流程管理的CRM系统

销售充满了不确定性&#xff0c;面对不同的客户&#xff0c;销售人员需要采用不同的销售策略。也正因为这种不确定性&#xff0c;规范的销售流程对企业尤为重要&#xff0c;它会让销售工作更加有效&#xff0c;快速地实现成交。下面小编给您推荐个不错的CRM销售流程管理系统。 …...

AutoCAD通过handle id选择实体

获得实体的handle id。注意是handle id 不是id&#xff0c;方法有2种&#xff1a;方法&#xff08;a&#xff09;&#xff1a;通过ArxDeg插件&#xff08;ObjectARX附带的源码编译得到&#xff1a;\samples\database\ARXDBG&#xff09;查找&#xff1a;此handle id本来就是16进…...

页面状态码的含义

使用互联网产品或服务的过程中&#xff0c;会遇到网页报错的情况&#xff0c; 比如404、505等&#xff0c;具体这些数字有什么含义呢&#xff1f;本文基本涵盖了99%的报错情况&#xff0c;可供大家查询使用。 状态码的定义 状态码一般是由3位数字和原因短语组成的&#xff08…...

Redis 越来越慢?常见延迟问题定位与分析

Redis作为内存数据库&#xff0c;拥有非常高的性能&#xff0c;单个实例的QPS能够达到10W左右。但我们在使用Redis时&#xff0c;经常时不时会出现访问延迟很大的情况&#xff0c;如果你不知道Redis的内部实现原理&#xff0c;在排查问题时就会一头雾水。很多时候&#xff0c;R…...

【python】python-socketio+firecamp使用踩坑指南

server.py: import eventlet import asyncioeventlet.monkey_patch()import socketio import eventlet.wsgisio socketio.Server(async_modeeventlet, cors_allowed_origins*) # 指明在evenlet模式下sio.event def connect(sid, environ):print(f"connect, sid{sid}, e…...

一般用什么语言做网站/长沙优化网站厂家

1,enq: TX- index contention等待事件的概念2,如何产生此等待事件3,如何解决等待事件4,小结. 1,enq: TX- index contention等待事件的概念 1&#xff0c;当在基于索引的表中插入一条记录时&#xff0c;此时正好另一会话事务正在操作这个索引块正处于分裂状态&#xff08;即…...

成都网站建设外包/青岛网站优化公司哪家好

AndroidAnnotations是如何工作的 &#xff08;2014年2月 By Hiperion&#xff09; AndroidAnnotations工作在一个非常简单的方式。它会使用标准的Java注解处理工具自动添加一个额外的编译步骤生成的源代码。(译者注&#xff1a;即生成一个原有类名加“_”的类&#xff0c;这个…...

wordpress 顶 踩 插件/深圳企业网站制作公司

本节书摘来自异步社区《移动App测试的22条军规》一书中的第23章&#xff0c;第9节测试微信App能否适应不同设备的不同用户界面&#xff0c;作者 黄勇&#xff0c;更多章节内容可以访问云栖社区“异步社区”公众号查看 23.9 测试微信App能否适应不同设备的不同用户界面测试App是…...

个人网站要有什么/搜索引擎推广的关键词

与REV5.0相比&#xff0c;修改地方如下&#xff1a; 1. 为了与黑金开发板完全匹配&#xff0c;将硬件开发部分中并行flash的操作改为了EPCS控制器的操作&#xff1b; 2. 加入了LCD&#xff08;一&#xff09;&#xff0c;LCD(二)两章 文档中还有些地方还有不足之处&#xff0c;…...

凉山建设机械网站/百度服务中心人工客服电话

转自&#xff1a;https://zhuanlan.zhihu.com/p/24638007 &#xff08;详细&#xff0c;666耳东陈老师&#xff09; 字典 SVM&#xff08;Support Vector Machine&#xff09;&#xff0c;支持向量机 constraint&#xff0c;约束 阅读说明 希腊字母表见附录1&#xff08;数…...

自己电脑做采集网站/今日热搜榜排名最新

原文:WPF 跨应用程序域的 UI&#xff08;Cross AppDomain UI&#xff09;版权声明&#xff1a;本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。欢迎转载、使用、重新发布&#xff0c;但务必保留文章署名吕毅&#xff08;包含链接&#xff1a;htt…...