当前位置：首页 > news >正文

Stochastic Approximation 随机近似方法的详解之（三）Dvoretzky’s convergence theorem

news 2026/2/8 9:11:21

定理内容

Theorem 6.2 (Dvoretzky’s Theorem). Consider a stochastic process
$wk+1=(1−αk)wk+βkηkw_{k+1}=\left(1-\alpha_k\right) w_k+\beta_k \eta_k$ ,
其中 ${αk}k=1∞,{βk}k=1∞,{ηk}k=1∞\{\alpha_k\}^\infty_{k=1},\{\beta_k\}^\infty_{k=1},\{\eta_k\}^\infty_{k=1}$ 都是随机序列。这里 $αk≥0,βk≥0{\alpha_k} \ge 0,{\beta_k} \ge 0$ 对于所有的 $k$ 都是成立的。那么 $w_{k}$ would converge to zero with probability 1 if the following conditions are satisfied:
在这里插入图片描述

要点阐释

RM算法里面的 $αk{\alpha_k}$ 是确定性的。然而Dvoretzky’s Theorem中 $αk,βk{\alpha_k},{\beta_k}$ 可以是由 $Hk\mathcal H_k$ 决定的随机变量。因此Dvoretzky’s Theorem 更加通用和强大。
对于uniformly w.p.1 的解释：
不再要求观测误差项 $ηk\eta_k$ 的系数 $βk\beta_k$ 的收敛速度了，收敛的快也没有关系。

证明在这里不展开，需要用到quasimartingales的知识

在这里插入图片描述

应用

证明Robbins-Monro theorem：
在这里插入图片描述

我们在等式两边同时减去目标根：
$wk+1−w∗=wk−w∗−ak[g(wk)−g(w∗)+ηk]w_{k+1}-w^*=w_k-w^*-a_k\left[g\left(w_k\right)-g\left(w^*\right)+\eta_k\right]$

然后就有：（注意，下面用到了中值定理）

在这里插入图片描述

注意这里的 $αk\alpha_k$ 不再是确定的了，而是由 $w_k和w_k'$ 共同决定的随机序列。对照Dvoretzky’s convergence theorem成立的条件，发现都满足：
在这里插入图片描述

到这里也就证明了RM算法求解方程根的收敛性。

定理的扩展：

原定理只能解决单变量的问题，不够使啊。必须扩展一下，让它可以处理多变量。扩展后的Dvoretzky’s convergence theorem 可以用来分析一些随机迭代算法的收敛性：比如Q-learning和TD算法。

扩展后的定理的内容：
在这里插入图片描述

在这样的定义下，原先数值上的大小比较就变成了不同向量之间的max norm的比较。注意哈， $Hk\mathcal H_k$ 是历史数据序列。

顺便解释一下max norm：
在这里插入图片描述

定理扩展的一些说明

扩展后的定理比原定理更加通用。首先，由于最大范数（the maximum norm）的引入，它可以处理多元变量的情况，对于具有很多个状态的强化学习问题，这一点很重要。第二，相比于原定理对 $E[ek(x)∣Hk]=0\mathbb{E}\left[e_k(x) \mid \mathcal{H}_k\right]=0$ and $var⁡[ek(x)∣Hk]≤C\operatorname{var}\left[e_k(x) \mid \mathcal{H}_k\right] \leq C$ 的要求，this theorem only requires that the expectation and variance are bounded by the error ∆k。
虽然(6.9)只是针对单个状态，但它可以处理多个状态的原因是是因为条件3和4，它们是针对整个状态空间的。此外, 在应用该定理证明RL算法的收敛性时，我们需要表明(6.9)对每个状态都有效。

参考
https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning

Stochastic Approximation 随机近似方法的详解之（三）Dvoretzky’s convergence theorem

定理内容

要点阐释

应用

定理的扩展：

定理扩展的一些说明

相关文章：

Stochastic Approximation 随机近似方法的详解之（三）Dvoretzky’s convergence theorem

7个ES6解构技巧让代码更简洁

曾经被人们看成是异想天开的产业互联网，或许终将会实现

log4j控制台不打印日志的故障解决方案

C# 序列化时“检测到循环引用”错误的彻底解决方案

小红书“复刻”微信，微信“内造”小红书

用arthas轻松排查线上问题

mysql一explain结果分析

原理底层计划--HashMap

win10 设备管理器中的黄色感叹号（华硕）

新产品上市推广不是“铺货”上架

MATLAB训练神经网络小结

实战：一天开发一款内置游戏直播的国产版Discord应用【附源码】

嵌入式学习笔记——基于Cortex-M的单片机介绍

Python 虚拟环境的使用

招生咨询｜浙江大学MPA项目2023年招生问答与通知

Qt std :: bad_alloc

《设计模式》装饰者模式

一文说清Kubernetes的本质

信息发布小程序【源码好优多】

iOS 26 携众系统重磅更新，但“苹果智能”仍与国行无缘

K8S认证|CKS题库+答案| 11. AppArmor

在鸿蒙HarmonyOS 5中实现抖音风格的点赞功能

连锁超市冷库节能解决方案：如何实现超市降本增效

基于Docker Compose部署Java微服务项目

拉力测试cuda pytorch 把 4070显卡拉满

MySQL 8.0 OCP 英文题库解析（十三）

大学生职业发展与就业创业指导教学评价

稳定币的深度剖析与展望

Linux离线（zip方式）安装docker