当前位置：首页 > news >正文

简单介绍神经网络中不同优化器的数学原理及使用特性【含规律总结】

news 2026/2/18 20:12:36

当涉及到优化器时，我们通常是在解决一个参数优化问题，也就是寻找能够使损失函数最小化的一组参数。当我们在无脑用adam时，有没有斟酌过用这个是否合适，或者说凭经验能够有目的性换用不同的优化器？是否用其他的优化器可以更好的解决问题？那我就介绍解释几种常用的优化器的基本原理：

随机梯度下降（SGD）：

SGD 是最基本的优化算法之一。它通过计算当前位置的梯度（即损失函数对参数的导数），然后朝着梯度的反方向更新参数。数学上可以表示为：

$w = w - α \cdot \nabla J (w)$

其中， $w$ 是待优化的参数， $\alpha$ 是学习率， $\nabla J(w)$ 是损失函数关于参数的梯度。
动量优化器（Momentum）：

Momentum 在 SGD 的基础上引入了动量项，它可以理解为模拟物体在空间中运动的物理量。这个动量项会考虑之前的更新，从而使更新方向在一定程度上保持一致。数学上可以表示为：

$v=\beta⋅v+(1−\beta)⋅ \nabla J(w)$

$w = w - α \cdot v$

其中， $v$ 是动量， $\beta$ 是动量因子，控制之前更新的影响程度。
AdaGrad：

AdaGrad 是自适应学习率的一种算法。它会根据参数的历史梯度调整学习率，使得对于稀疏数据来说可以使用一个更大的学习率，而对于频繁出现的数据则会使用较小的学习率。数学上可以表示为：

$\frac{\alpha}{\sqrt{G + \epsilon}} \cdot \nabla J(w)$

其中， $G$ 是梯度的平方和的累积， $\epsilon$ 是一个很小的数，防止除零错误。
RMSprop：

RMSprop 是 AdaGrad 的一个变体，它引入了一个衰减系数 $\beta$ ，用来控制历史梯度的权重。这使得 RMSprop 更加平滑地调整学习率。数学上可以表示为：

$\beta \cdot G + (1 - \beta) \cdot (\nabla J(w))^2$

$\frac{\alpha}{\sqrt{G + \epsilon}} \cdot \nabla J(w)$

其中， $G$ 是平方梯度的指数加权移动平均。
Adam：

Adam 结合了 Momentum 和 RMSprop 的特性，是一种同时考虑动量和自适应学习率的优化器。它可以动态地调整每个参数的学习率，并且可以保持更新方向的一致性。Adam 还引入了偏差修正，以解决初始训练时的偏差问题。数学上可以表示为：

$\beta_1 \cdot m + (1 - \beta_1) \cdot \nabla J(w)$

$\beta_2 \cdot v + (1 - \beta_2) \cdot (\nabla J(w))^2$

$\hat{m} = \frac{m}{1 - \beta_1^t}$

$\hat{v} = \frac{v}{1 - \beta_2^t}$

$\frac{\alpha}{\sqrt{\hat{v} + \epsilon}} \cdot \hat{m}$

其中， $m$ 和 $v$ 分别是动量和平方梯度的移动平均， $\beta_1$ 和 $\beta_2$ 是衰减系数， $t$ 是当前迭代次数， $\epsilon$ 是避免除零错误的小数。

其实，每种优化器都有其适用的场景，具体的选择需要根据问题的特性和实际实验的结果来决定。
如果你真的对优化器的数学原理不感冒，只是一个最小白的神经网络构建者，那么我尝试总结几条，最浅显易懂的优化器特征，以供查阅：

随机梯度下降（SGD）：这是最基本的优化算法之一，它在每个训练步骤中沿着梯度的反方向更新权重。它有时候可能需要更多的调参工作来获得好的性能。
动量优化器（Momentum）：当需要考虑前一次梯度调整对后续修正的影响时，这个方法不错。Momentum 的参数 momentum 控制了之前梯度的影响程度，一般取值在 0.8 到 0.9 之间。
Adagrad：Adagrad 会为不经常更新的参数提供更大的学习率，适合处理稀疏数据。
RMSprop：与 Adam 类似，RMSprop 也是自适应学习率的一种算法。在一些情况下，它可能会比 Adam 更好。
Adam：Adam 通过自适应调整学习率来提高训练效率。它通常对于大多数问题都是一个良好的默认选择。
Adadelta：Adadelta 是一种自适应学习率的优化器，可以自动调整学习率。
Nadam：Nadam 是结合了 Nesterov 动量的 Adam 变体，通常在训练深度神经网络时表现良好。
FTRL：FTRL 是针对线性模型优化的一种算法，对于大规模线性模型可以很有效。

联系我交流请署名👇

简单介绍神经网络中不同优化器的数学原理及使用特性【含规律总结】

相关文章：

简单介绍神经网络中不同优化器的数学原理及使用特性【含规律总结】

JL653—一个基于ARINC653的应用程序仿真调试工具

MQTT Paho Android 支持SSL/TLS(亲测有效)

STM32——SPI通信

Linux虚拟机局域网IP配置

MacOS删除.DS_Store文件

ARM Linux DIY（十一）板子名称、开机 logo、LCD 控制台、console 免登录、命令提示符、文件系统大小

【Unity程序技巧】Unity中的单例模式的运用

java leetcodetop100 (3,4 )最长连续数列，移动零

用Vite从零到一创建React+ts项目

HTTP状态码301(永久重定向)不同Web服务器的配置方法

vue-element-admin项目部署 nginx动态代理含Docker部署、 Jenkins构建

使用Python来写模拟Xshell实现远程命令执行与交互

mybatis 数据库字段为空or为空串忽略条件过滤, 不为空且不为空串时才需nameParam过滤条件

【玩玩Vue】通过vue-store实现枚举管理，用于下拉选项和中英文翻译等

ISCSI：后端卷以LVM 的方式配置 ISCSI 目标启动器

八公山豆腐发展现状与销售对策研究

排序算法-插入排序

多位数按键操作（闪烁）数码管显示

MyEclipse项目导入与导出

java 实现excel文件转pdf | 无水印 | 无限制

解决Ubuntu22.04 VMware失败的问题 ubuntu入门之二十八

生成 Git SSH 证书

Mac软件卸载指南，简单易懂！

【AI学习】三、AI算法中的向量

智能分布式爬虫的数据处理流水线优化：基于深度强化学习的数据质量控制

如何在网页里填写 PDF 表格？

让回归模型不再被异常值“带跑偏“，MSE和Cauchy损失函数在噪声数据环境下的实战对比

处理vxe-table 表尾数据是单独一个接口，表格tableData数据更新后，需要点击两下，表尾才是正确的

push [特殊字符] present