当前位置：首页 > news >正文

33. 动量法（Momentum）介绍

news 文章来源：https://blog.csdn.net/qq_41238579/article/details/139900079 2025/4/27 6:32:23

1. 背景知识

在深度学习的优化过程中，梯度下降法（Gradient Descent, GD）是最基本的方法。然而，基本的梯度下降法在实际应用中存在收敛速度慢、容易陷入局部最小值以及在高维空间中振荡较大的问题。为了解决这些问题，人们提出了动量法（Momentum）。

2. 动量法的概念

动量（Momentum）最初是一个物理学概念，表示物体的质量与速度的乘积。它的方向与速度的方向相同，并遵循动量守恒定律。尽管深度学习中的动量与物理学中的动量并不完全相同，但它们都强调了一个概念：在运动方向上保持运动的趋势，从而加速收敛。

3. 动量法在深度学习中的应用

在深度学习中，动量法通过记录梯度的增量并将其与当前梯度相加，来平滑梯度下降的路径。这意味着在每一步的迭代中，不仅考虑当前的梯度，还考虑之前梯度的累积效果。

动量法的更新公式如下：
\[ v_t = \beta v_{t-1} + (1 - \beta) \nabla L(w_t) \]
\[ w_{t+1} = w_t - \alpha v_t \]
其中：
- \( v_t \) 是动量项，记录了之前梯度的累积。
- \( \beta \) 是动量参数，控制动量项的衰减，一般取值为0.9。
- \( \nabla L(w_t) \) 是当前参数的梯度。
- \( \alpha \) 是学习率。

4. 动量法的优点

1. 加速收敛：动量法通过积累之前的梯度信息，使得优化过程更为顺畅，避免了曲折路径，提高了收敛速度。
2. 跳过局部最小值：由于动量的累积作用，可以帮助优化算法跳过一些局部最小值，找到更优的解。
3. 减少振荡：动量法可以有效减小学习过程中梯度震荡的现象，使得模型的训练更加稳定。

5. 动量法的缺点

1. 计算复杂度增加：由于需要维护动量项，会导致计算复杂度的增加。
2. 参数调节：动量法引入了新的超参数（动量系数），需要在实际应用中进行调节。

6. 动量法的改进及变种

在动量法的基础上，还有一些改进和变种，如Nesterov加速梯度（Nesterov Accelerated Gradient, NAG）、RMSprop、Adam等。这些方法在动量法的基础上进一步优化了收敛速度和稳定性。

7. 实验代码示例


import torch
import torch.nn as nn
import torch.optim as optim
import matplotlib.pyplot as plt# 数据生成
torch.manual_seed(42)
X = torch.randn(1000, 1)
y = 3 * X.squeeze() + 2 + torch.randn(1000) * 0.5# 模型定义
class LinearModel(nn.Module):def __init__(self):super(LinearModel, self).__init__()self.linear = nn.Linear(1, 1)def forward(self, x):return self.linear(x)# 损失函数
criterion = nn.MSELoss()# 不同梯度下降方法的比较
methods = {'SGD': optim.SGD,'Momentum': lambda params: optim.SGD(params, lr=0.01, momentum=0.9)
}losses = {method: [] for method in methods}# 训练过程
epochs = 1000
for method_name, optimizer_fn in methods.items():model = LinearModel()optimizer = optimizer_fn(model.parameters())for epoch in range(epochs):optimizer.zero_grad()outputs = model(X)loss = criterion(outputs.squeeze(), y)loss.backward()optimizer.step()losses[method_name].append(loss.item())# 绘制损失曲线
for method_name, loss_values in losses.items():plt.plot(loss_values, label=method_name)
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.title('Loss Curve Comparison')
plt.show()

8. 结论

动量法通过引入动量项，显著提高了梯度下降法的收敛速度和稳定性。尽管在实际应用中引入了额外的计算开销，但其在许多深度学习任务中的表现优异，已经成为常用的优化方法之一。

希望通过这篇文章，大家能够更好地理解动量法的原理和应用，并能在实际项目中灵活运用。

33. 动量法（Momentum）介绍

1. 背景知识

2. 动量法的概念

3. 动量法在深度学习中的应用

4. 动量法的优点

5. 动量法的缺点

6. 动量法的改进及变种

7. 实验代码示例

8. 结论

相关文章：

33. 动量法（Momentum）介绍

Python | Leetcode Python题解之第228题汇总区间

物联网应用，了解一点 WWAN全球网络标准

如何指定多块GPU卡进行训练-数据并行

RK3568笔记三十三: helloworld 驱动测试

【智能制造-14】机器视觉软件

MVC分页

webGL可用的14种3D文件格式，但要具体问题具体分析。

HybridCLR原理中的重点总结

昇思学习打卡-14-ResNet50迁移学习

软件开发面试题C#，.NET知识点（续）

2019年美赛题目Problem A: Game of Ecology

沙龙回顾｜MongoDB如何充当企业开发加速器？

云端编码：将您的技术API文档安全存储在iCloud的最佳实践

在Spring Boot项目中集成单点登录解决方案

Java-常用API

Python从Excel表中查找指定数据填入新表

从零开始实现大语言模型（三）：Token Embedding与位置编码

视频怎么压缩变小？最佳视频压缩器

LLM - 绝对与相对位置编码与 RoPE 旋转位置编码源码

B3917 [语言月赛 202401] 小跳蛙

Bash ——shell

PyTorch复现PointNet——模型训练+可视化测试显示

分享五款软件，成为高效生活的好助手

代码随想录算法训练营DAY58｜101.孤岛的总面积、102.沉没孤岛、103. 水流问题、104.建造最大岛屿

韦尔股份：深蹲起跳？

docs | 使用 sphinx 转化rst文件为html文档

【ChatGPT 消费者偏好】第二弹：ChatGPT在日常生活中的使用—推文分享—2024-07-10

Webpack配置及工作流程

华为ensp实现防火墙的区域管理与用户认证