Stochastic Approximation 随机近似方法的详解之(三)Dvoretzky’s convergence theorem
定理内容
Theorem 6.2 (Dvoretzky’s Theorem). Consider a stochastic process
wk+1=(1−αk)wk+βkηkw_{k+1}=\left(1-\alpha_k\right) w_k+\beta_k \eta_kwk+1=(1−αk)wk+βkηk,
其中{αk}k=1∞,{βk}k=1∞,{ηk}k=1∞\{\alpha_k\}^\infty_{k=1},\{\beta_k\}^\infty_{k=1},\{\eta_k\}^\infty_{k=1}{αk}k=1∞,{βk}k=1∞,{ηk}k=1∞都是随机序列。这里αk≥0,βk≥0{\alpha_k} \ge 0,{\beta_k} \ge 0αk≥0,βk≥0 对于所有的kkk都是成立的。那么 wkw_{k}wk would converge to zero with probability 1 if the following conditions are satisfied:
要点阐释
- RM算法里面的αk{\alpha_k}αk是确定性的。然而Dvoretzky’s Theorem中 αk,βk{\alpha_k},{\beta_k}αk,βk 可以是由Hk\mathcal H_kHk决定的随机变量。因此Dvoretzky’s Theorem 更加通用和强大。
- 对于uniformly w.p.1 的解释:
- 不再要求观测误差项ηk\eta_kηk的系数βk\beta_kβk的收敛速度了,收敛的快也没有关系。
证明在这里不展开,需要用到quasimartingales的知识
应用
证明Robbins-Monro theorem:
我们在等式两边同时减去目标根:
wk+1−w∗=wk−w∗−ak[g(wk)−g(w∗)+ηk]w_{k+1}-w^*=w_k-w^*-a_k\left[g\left(w_k\right)-g\left(w^*\right)+\eta_k\right]wk+1−w∗=wk−w∗−ak[g(wk)−g(w∗)+ηk]
然后就有:(注意,下面用到了中值定理)
注意这里的αk\alpha_kαk不再是确定的了,而是由wk和wk′w_k和w_k'wk和wk′共同决定的随机序列。对照Dvoretzky’s convergence theorem成立的条件,发现都满足:
到这里也就证明了RM算法求解方程根的收敛性。
定理的扩展:
原定理只能解决单变量的问题,不够使啊。必须扩展一下,让它可以处理多变量。扩展后的Dvoretzky’s convergence theorem 可以用来分析一些随机迭代算法的收敛性:比如Q-learning和TD算法。
扩展后的定理的内容:
在这样的定义下,原先数值上的大小比较就变成了不同向量之间的max norm的比较。注意哈,Hk\mathcal H_kHk是历史数据序列。
顺便解释一下max norm:
定理扩展的一些说明
- 扩展后的定理比原定理更加通用。首先,由于最大范数(the maximum norm)的引入,它可以处理多元变量的情况,对于具有很多个状态的强化学习问题,这一点很重要。第二,相比于原定理对E[ek(x)∣Hk]=0\mathbb{E}\left[e_k(x) \mid \mathcal{H}_k\right]=0E[ek(x)∣Hk]=0 and var[ek(x)∣Hk]≤C\operatorname{var}\left[e_k(x) \mid \mathcal{H}_k\right] \leq Cvar[ek(x)∣Hk]≤C的要求,this theorem only requires that the expectation and variance are bounded by the error ∆k。
- 虽然(6.9)只是针对单个状态,但它可以处理多个状态的原因是是因为条件3和4,它们是针对整个状态空间的。此外, 在应用该定理证明RL算法的收敛性时,我们需要表明(6.9)对每个状态都有效。
参考
https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning
相关文章:
Stochastic Approximation 随机近似方法的详解之(三)Dvoretzky’s convergence theorem
定理内容 Theorem 6.2 (Dvoretzky’s Theorem). Consider a stochastic process wk1(1−αk)wkβkηkw_{k1}\left(1-\alpha_k\right) w_k\beta_k \eta_kwk1(1−αk)wkβkηk, 其中{αk}k1∞,{βk}k1∞,{ηk}k1∞\{\alpha_k\}^\infty_{k1},\{\beta_k\}^\infty_{k1},\…...
7个ES6解构技巧让代码更简洁
您是否厌倦了编写臃肿且难以阅读的代码?想要提升您的编码技能并使您的代码更具可读性和简洁性? 从解构对象和数组到使用默认值和展开运算符,我们将涵盖所有内容,现在,我们将准备好掌握干净简洁的编码艺术。 1.解构对…...
曾经被人们看成是异想天开的产业互联网,或许终将会实现
一波还未平息,一波又起。元宇宙的热度还未彻底散去,ChatGPT已经成为了名符其实的新风口。如果用一个概念来定义现在这样一个热点和风口频出的时代的话,我想,用产业互联网或许是再合适不过的了。对此,可能有人并不认同。…...
log4j控制台不打印日志的故障解决方案
前言 接管了别的项目组的一个代码,在IDAE调试程序的过程中,发现log4j日志居然没有打印在控制台上,日志相关代码也没有问题。 在网上搜索了一圈,总结了一下个人解决这个问题的流程。 流程 1. 判断用了什么配置文件 不知道是出…...
C# 序列化时“检测到循环引用”错误的彻底解决方案
目录 一,问题表现 二、没有技术含量的解决方案 三、本人彻底的解决方案 简要说明 贴代码 思路解析 思路 一,问题表现 示例代码如下: [Serializable] public class NodeTest {public NodeTest (){new List<NodeTest> ();}p…...
小红书“复刻”微信,微信“内造”小红书
配图来自Canva可画 随着互联网增长红利逐渐见顶,各大互联网平台对流量的争夺变得愈发激烈。而为了寻找新的业务可能性,各家都在不遗余力地拓宽自身边界。在此背景下,目前最为“吸睛”和“吸金”的社交、电商、种草、短视频等领域,…...
用arthas轻松排查线上问题
你是否在项目中会碰到以下一些问题: 在代码中打印各种日志来排查,比如方法的入参,出参,及在方法体中打印日志判断走哪行代码还有你觉得代码没问题,可是运行出现却是以前的bug,感觉代码没修改,或…...
mysql一explain结果分析
1. EXPLAIN简介 使用EXPLAIN关键字可以模拟优化器执行SQL查询语句,从而知道MySQL是如何处理你的SQL语句的。分析你的查询语句或是表结构的性能瓶颈。 ➤ 通过EXPLAIN,我们可以分析出以下结果: 表的读取顺序数据读取操作的操作类型哪些索引可…...
原理底层计划--HashMap
HashMap 之前写了“Java集合TreeMap红黑树一生只爱一次”,说到底还是太年轻了,Map其实在排序中应用比较少,一般追求的是速度,通过HashMap来获取速度。hashmap 调用object hashcode方法用于返回对象的哈希码,主要使用在…...
win10 设备管理器中的黄色感叹号(华硕)
目录一、前言二、原因三、方案四、操作一、前言 打开设备管理器,我们可以看到自己设备的信息,但是在重装系统后,你总会在不经意间发现。咦,怎么多了几个感叹号??? 由于我已经解决该问题&#…...
新产品上市推广不是“铺货”上架
只有不断推出新产品的企业才能走得长远,但现实中往往有很多企业投入了大量人力、物力、财力研发的新产品却在推广的过程中屡屡受挫。那么,为什么适合市场的新产品会在市场营销推广的过程中夭折呢?小马识途营销顾问分析有如下几点:…...
MATLAB训练神经网络小结
MATLAB训练神经网络小结1、一个典型例子1.1 可视化神经网络1.2 指定某一层的激活函数1.3 训练神经网络时使用L1正则化1.4返回训练过程中的参数1.5 查看训练好的权重系数1.6 如何使用早停法来防止过拟合1、一个典型例子 例如输入特征为10维,想训练一个10x20x10x1的三…...
实战:一天开发一款内置游戏直播的国产版Discord应用【附源码】
游戏直播是Discord产品的核心功能之一,本教程教大家如何1天内开发一款内置游戏直播的国产版Discord应用,用户不仅可以通过IM聊天,也可以进行语聊,看游戏直播,甚至自己进行游戏直播,无任何实时音视频底层技术…...
嵌入式学习笔记——基于Cortex-M的单片机介绍
基于Cortex-M的单片机介绍前言生产厂商及其产品线ARM单片机的产品线命名规则留个作业习单片机的资料准备STM32开发所需手册1.芯片的数据手册作业2前言 本文继续接着上一篇中关于Cortex-M的介绍,来记录一些关于ARM系单片机的知识。 生产厂商及其产品线 芯片厂商在…...
Python 虚拟环境的使用
PyCharm 创建的虚拟环境与使用 workon 命令创建的虚拟环境在本质上没有区别,它们都是 Python 的虚拟环境。 使用 PyCharm 创建工程时,使用可以使用曾经工程的虚拟环境,或者新建一个虚拟环境来安装 Python 的库,又或者使用 workon…...
招生咨询|浙江大学MPA项目2023年招生问答与通知
问:报考浙江大学MPA的基本流程是怎么样的? 答:第一阶段为网上报名与确认。MPA考生须参加全国管理类联考,网上报名时间一般为10月初开始、10月下旬截止,错过网上报名时间后不能补报。确认时间一般为11月上旬,…...
Qt std :: bad_alloc
文章目录摘要问题出现原因第一种 请求内存多余系统可提供内存第二种 地址空间过于分散,无法满足大块连续内存的请求第三种 堆管理数据结构损坏稍微总结下没想到还能更新参考关键字: std、 bad、 alloc、 OOM、 异常退出摘要 今天又是被BUG统治的一天&a…...
《设计模式》装饰者模式
《设计模式》装饰者模式 装饰者模式(Decorator Pattern)是一种结构型设计模式,它允许在不改变现有对象结构的情况下,动态地添加行为或责任到对象上。在装饰者模式中,有一个抽象组件(Component)…...
一文说清Kubernetes的本质
文章目录Kubernetes解决了什么问题?Kubernetes的全局架构Kubernetes的设计思想Kubernetes的核心功能Kubernetes如何启动一个容器化任务?Kubernetes解决了什么问题? 编排?调度?容器云?还是集群管理…...
信息发布小程序【源码好优多】
简介 信息发布小程序,实现数据与小程序数据同步共享,通过简单的配置就能搭建自己的小程序。,基于微信小程序开发的小程序。 这个框架比较简单就是用微信原生开发技术进行实现的,可以用于信息展示等相关信息。其中目前APP比较多&am…...
创新型中小企业申报流程
据工业和信息化部《优质中小企业梯度培育管理暂行办法》(工信部企业〔2022〕63号)和省《优质中小企业梯度培育管理实施细则》(鲁工信发〔2022〕8号,以下简称《细则》),现就做好2022年山东省创新型中小企业评…...
【UE4 Cesium】加载离线地图
主体思路:先使用水经注软件下载瓦片数据,再使用Python转换瓦片数据格式(TMS),使用Nginx发布网络服务,最后将网络服务加载到UE中。步骤:使用水经注下载瓦片数据,这里下载的是全球七级…...
Spring面试题
目录 Spring、Springmvc、Springboot的区别是什么 SpringMVC工作流程是什么 SpringMVC的九大组件有哪些 Spring的核心是什么 spring的事务传播机制是什么 Spring框架中的单例Bean是线程安全的么 spring框架中使用了哪些设计模式及应用场景 spring事务的隔离级别有哪些?…...
动态网站开发讲课笔记03:HTTP协议
文章目录零、本节学习目标一、HTTP概述(一)HTTP的概念1、HTTP的概念2、HTTP协议的特点(1)C/S模式(2)简单快速(3)灵活(4)无状态(二)HTT…...
2023年天津财经大学珠江学院专升本专业课考试题型
天津财经大学珠江学院关于2023年高职升本科专业课考试时间及题型一、专业课考试 (一)时间安排 2023年天津财经大学珠江学院高职升本科专业课考试定于2023年3月25日14:00-17:00进行,凡报考工商管理、旅游管理、税收学专业的考生&am…...
五方面提高销售流程管理的CRM系统
销售充满了不确定性,面对不同的客户,销售人员需要采用不同的销售策略。也正因为这种不确定性,规范的销售流程对企业尤为重要,它会让销售工作更加有效,快速地实现成交。下面小编给您推荐个不错的CRM销售流程管理系统。 …...
AutoCAD通过handle id选择实体
获得实体的handle id。注意是handle id 不是id,方法有2种:方法(a):通过ArxDeg插件(ObjectARX附带的源码编译得到:\samples\database\ARXDBG)查找:此handle id本来就是16进…...
页面状态码的含义
使用互联网产品或服务的过程中,会遇到网页报错的情况, 比如404、505等,具体这些数字有什么含义呢?本文基本涵盖了99%的报错情况,可供大家查询使用。 状态码的定义 状态码一般是由3位数字和原因短语组成的(…...
Redis 越来越慢?常见延迟问题定位与分析
Redis作为内存数据库,拥有非常高的性能,单个实例的QPS能够达到10W左右。但我们在使用Redis时,经常时不时会出现访问延迟很大的情况,如果你不知道Redis的内部实现原理,在排查问题时就会一头雾水。很多时候,R…...
【python】python-socketio+firecamp使用踩坑指南
server.py: import eventlet import asyncioeventlet.monkey_patch()import socketio import eventlet.wsgisio socketio.Server(async_modeeventlet, cors_allowed_origins*) # 指明在evenlet模式下sio.event def connect(sid, environ):print(f"connect, sid{sid}, e…...
一般用什么语言做网站/长沙优化网站厂家
1,enq: TX- index contention等待事件的概念2,如何产生此等待事件3,如何解决等待事件4,小结. 1,enq: TX- index contention等待事件的概念 1,当在基于索引的表中插入一条记录时,此时正好另一会话事务正在操作这个索引块正处于分裂状态(即…...
成都网站建设外包/青岛网站优化公司哪家好
AndroidAnnotations是如何工作的 (2014年2月 By Hiperion) AndroidAnnotations工作在一个非常简单的方式。它会使用标准的Java注解处理工具自动添加一个额外的编译步骤生成的源代码。(译者注:即生成一个原有类名加“_”的类,这个…...
wordpress 顶 踩 插件/深圳企业网站制作公司
本节书摘来自异步社区《移动App测试的22条军规》一书中的第23章,第9节测试微信App能否适应不同设备的不同用户界面,作者 黄勇,更多章节内容可以访问云栖社区“异步社区”公众号查看 23.9 测试微信App能否适应不同设备的不同用户界面测试App是…...
个人网站要有什么/搜索引擎推广的关键词
与REV5.0相比,修改地方如下: 1. 为了与黑金开发板完全匹配,将硬件开发部分中并行flash的操作改为了EPCS控制器的操作; 2. 加入了LCD(一),LCD(二)两章 文档中还有些地方还有不足之处,…...
凉山建设机械网站/百度服务中心人工客服电话
转自:https://zhuanlan.zhihu.com/p/24638007 (详细,666耳东陈老师) 字典 SVM(Support Vector Machine),支持向量机 constraint,约束 阅读说明 希腊字母表见附录1(数…...
自己电脑做采集网站/今日热搜榜排名最新
原文:WPF 跨应用程序域的 UI(Cross AppDomain UI)版权声明:本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。欢迎转载、使用、重新发布,但务必保留文章署名吕毅(包含链接:htt…...