当前位置：首页 > news >正文

DIDL5_数值稳定性和模型初始化

news 2026/2/8 10:46:06

数值稳定性和模型初始化

数值稳定性
- 梯度不稳定的影响
- 推导
- 什么是梯度消失？
- 什么是梯度爆炸？
如何解决数值不稳定问题？——参数初始化
- 参数初始化的几种方法
- - 默认初始化
  - Xavier初始化
小结

当神经网络变得很深的时候，数值特别容易不稳定。
我们实现的每个模型都是根据某个预先指定的分布来初始化模型的参数。
初始化方案的选择在神经网络学习中起着举足轻重的作用，它对保持数值稳定性至关重要

数值稳定性

梯度不稳定的影响

糟糕初始化参数可能会导致我们在训练时遇到梯度爆炸或梯度消失。
不稳定梯度带来的风险不止在于数值表示；不稳定梯度也威胁到我们优化算法的稳定性。

梯度爆炸（gradient exploding）问题：参数更新过大，破坏了模型的稳定收敛；
梯度消失（gradient vanishing）问题：参数更新过小，在每次更新时几乎不会移动，导致模型无法学习。

推导

考虑一个具有 $L$ 层、输入 $x$ 和输出 $o$ 的深层网络。每一层 $l$ 由变换 $f_l$ 定义，该变换的参数为权重 $W^{(l)}$ ，其隐藏变量是 $h^{(l)}$ （令 $h^{0} = x$ ）。
该网络可以表示为：
$o=fL∘…∘f1(x).\mathbf{h}^{(l)} = f_l (\mathbf{h}^{(l-1)}) \text{ 因此 } \mathbf{o} = f_L \circ \ldots \circ f_1(\mathbf{x}).$
如果所有隐藏变量和输入都是向量，我们可以将 $o\mathbf{o}$ 关于任何一组参数 $W(l)\mathbf{W}^{(l)}$ 的梯度写为下式：
$∂W(l)o=∂h(L−1)h(L)⏟M(L)=def⋅…⋅∂h(l)h(l+1)⏟M(l+1)=def∂W(l)h(l)⏟v(l)=def.\partial_{\mathbf{W}^{(l)}} \mathbf{o} = \underbrace{\partial_{\mathbf{h}^{(L-1)}} \mathbf{h}^{(L)}}_{ \mathbf{M}^{(L)} \stackrel{\mathrm{def}}{=}} \cdot \ldots \cdot \underbrace{\partial_{\mathbf{h}^{(l)}} \mathbf{h}^{(l+1)}}_{ \mathbf{M}^{(l+1)} \stackrel{\mathrm{def}}{=}} \underbrace{\partial_{\mathbf{W}^{(l)}} \mathbf{h}^{(l)}}_{ \mathbf{v}^{(l)} \stackrel{\mathrm{def}}{=}}.$
该梯度是 $L - l$ 个矩阵 $M(L)⋅…⋅M(l+1)\mathbf{M}^{(L)} \cdot \ldots \cdot \mathbf{M}^{(l+1)}$ 与梯度向量 $v(l)\mathbf{v}^{(l)}$ 的乘积。

因此，我们容易受到数值下溢问题的影响. 当将太多的概率乘在一起时，这些问题经常会出现。

什么是梯度消失？

激活函数sigmoid函数， $\exp(-x))$ ，类似于阈值函数。由于早期的人工神经网络受到生物神经网络的启发，神经元要么完全激活要么完全不激活（就像生物神经元）的想法很有吸引力。然而，它却是导致梯度消失问题的一个常见的原因：
在这里插入图片描述
当sigmoid函数的输入很大或是很小时，它的梯度都会消失。当反向传播通过许多层时，除非我们在刚刚好的地方，这些地方sigmoid函数的输入接近于零，否则整个乘积的梯度可能会消失。
当我们的网络有很多层时，除非我们很小心，否则在某一层可能会切断梯度。
更稳定的ReLU系列函数已经成为从业者的默认选择。

什么是梯度爆炸？

矩阵乘积发生了爆炸，这种情况是由于深度网络的初始化导致的，没有机会让梯度下降优化器收敛。

#pytorch
M = torch.normal(0, 1, size=(4,4))
print('一个矩阵 \n',M)
for i in range(100):M = torch.mm(M,torch.normal(0, 1, size=(4, 4)))print('乘以100个矩阵后\n', M)

在这里插入图片描述

如何解决数值不稳定问题？——参数初始化

参数初始化是解决（或至少减轻）上述问题的一种方法，优化期间的注意和适当的正则化也可以进一步提高稳定性。

参数初始化的几种方法

默认初始化

如果我们不指定初始化方法，框架将使用默认的随机初始化方法，对于中等难度的问题，这种方法通常很有效。

Xavier初始化

某些没有非线性的全连接层输出（例如，隐藏变量） $o_{i}$ 的尺度分布。对于该层 $ninn_\mathrm{in}$ 输入 $x_j$ 及其相关权重 $w_{ij}$ ，输出由下式给出
$oi=∑j=1ninwijxj.o_{i} = \sum_{j=1}^{n_\mathrm{in}} w_{ij} x_j.$

现在标准且实用的Xavier初始化的基础，它以其提出者 (Glorot and Bengio, 2010) 第一作者的名字命名。通常，Xavier初始化从均值为零，方差 $σ2=2nin+nout\sigma^2 = \frac{2}{n_\mathrm{in} + n_\mathrm{out}}$ 的高斯分布中采样权重。我们也可以将其改为选择从均匀分布中抽取权重时的方差。注意均匀分布 $U (- a, a)$ 的方差为 $a23\frac{a^2}{3}$ 。将 $a23\frac{a^2}{3}$ 代入到 $σ2\sigma^2$ 的条件中，将得到初始化值域：
$U(−6nin+nout,6nin+nout).U\left(-\sqrt{\frac{6}{n_\mathrm{in} + n_\mathrm{out}}}, \sqrt{\frac{6}{n_\mathrm{in} + n_\mathrm{out}}}\right).$

尽管在上述数学推理中，“不存在非线性”的假设在神经网络中很容易被违反，但Xavier初始化方法在实践中被证明是有效的。

小结

梯度消失和梯度爆炸是深度网络中常见的问题。在参数初始化时需要非常小心，以确保梯度和参数可以得到很好的控制。
需要用启发式的初始化方法来确保初始梯度既不太大也不太小。
ReLU激活函数缓解了梯度消失问题，这样可以加速收敛。
随机初始化是保证在进行优化前打破对称性的关键。
Xavier初始化表明，对于每一层，输出的方差不受输入数量的影响，任何梯度的方差不受输出数量的影响。

DIDL5_数值稳定性和模型初始化

数值稳定性和模型初始化数值稳定性梯度不稳定的影响推导什么是梯度消失？什么是梯度爆炸？如何解决数值不稳定问题？——参数初始化参数初始化的几种方法默认初始化Xavier初始化小结当神经网络变得很深的时候，数值特别容易不稳定。我…...

编程日记 2023/2/19 1:34:12

火狐浏览器推拽开新的窗口

今天我测试的时候，发现我拖拽一下火狐会打开了新的窗口，谷歌就不会，所以我们要阻止一下默认行为const disableFirefoxDefaultDrop () > {const isFirefox navigator.userAgent.toLowerCase().indexOf(firefox) ! -1if (isFirefox) {docu…...

编程日记 2023/2/19 1:31:54

vrrp+mstp+osfp经典部署案例

LSW1和LSW2和LSW3和LSW4上面启用vrrpmstp组网： vlan 10 全走LSW1出再走AR2到外网，vlan 20 全走LSW2出再走AR3到外网配置注意：mstp实例的根桥在哪，vrrp的主设备就是谁 ar2和ar3上开nat ar2和ar3可以考虑换成两台防火墙来做&…...

编程日记 2023/2/19 1:30:46

AI_News周刊：第二期

2023.02.13—2023.02.17 1.ChatGPT 登上TIME时代周刊封面这一转变标志着自社交媒体以来最重要的技术突破。近几个月来，好奇、震惊的公众如饥似渴地采用了生成式人工智能工具，这要归功于诸如 ChatGPT 之类的程序，它对几乎任何查询做出连贯&a…...

编程日记 2023/2/19 1:28:29

【C++的OpenCV】第一课-opencv的间接和安装（Linux环境下）

第一课-目录一、基本介绍1.1 官网1.2 git源码1.3 介绍二、OpenCV的相关部署工作2.1 Linux平台下部署OpenCV一、基本介绍 1.1 官网 opencv官网注意：官网为英文版本，可以使用浏览器自带的翻译插件进行翻译，真心不推荐大家去看别人翻译的&am…...

编程日记 2023/2/19 1:27:20

为什么建议使用你 LocalDateTime ，而不是 Date

为什么建议使用你 LocalDateTime ，而不是 Date？ 在项目开发过程中经常遇到时间处理，但是你真的用对了吗，理解阿里巴巴开发手册中禁用static修饰SimpleDateFormat吗通过阅读本篇文章你将了解到： 为什么需要LocalDate…...

编程日记 2023/2/19 1:26:09

【大数据】HADOOP-YARN容量调度器Spark作业实战

目录需求配置多队列的容量调度器验证队列资源需求 default 队列占总内存的40%，最大资源容量占总资源的60% ops 队列占总内存的60%，最大资源容量占总资源的80% 配置多队列的容量调度器在yarn-site.xml里面配置使用容量调度器 <!-- 使用容量调度器…...

编程日记 2023/2/19 1:25:01

平面及其方程

一、曲面和交线的定义空间解析几何中，任何曲面或曲线都看作点的几何轨迹。在这样的意义下，如果曲面SSS与三元方程： F(x,y,z)0(1)F(x,y,z)0\tag{1} F(x,y,z)0(1) 有下述关系： 曲面 SSS 上任一点的坐标都满足方程(1)(1)(1)不在曲…...

编程日记 2023/2/19 1:22:38

7 配置的封装

概述 IPC设备通常有三种配置信息：一是默认配置，存储了设备所有配置项的默认值，默认配置是只读的，不能修改；二是用户配置，存储了用户修改过的所有配置项；三是私有配置，存储了程序内部使用的一些配置项，比如：固件升级的URL、固件升级标志位等。恢复出厂设置的操作，实际…...

编程日记 2023/2/19 1:21:29

03_Docker 入门

03_Docker 入门文章目录03_Docker 入门3.1 确保 Docker 已经就绪3.2 运行我们的第一个容器3.3 使用第一个容器3.4 容器命名3.5 重新启动已经停止的容器3.6 附着到容器上3.7 创建守护式容器3.8 容器内部都在干些什么3.9 Docker 日志驱动3.10 查看容器内的进程3.11 Docker 统计信…...

编程日记 2023/2/19 1:20:23

Python 为什么要 if name == “main“:

各位读者，你们知道以下两个Python文件有什么区别吗？ main1.py def main():output Helloprint(output)if __name__ "__main__":main()main2.py output Hello print(output)当我们直接运行 main1.py 与 main2.py 的时候，程序都…...

编程日记 2023/2/19 1:19:14

455. 分发饼干、376. 摆动序列、53. 最大子数组和

455.分发饼干题目描述： 假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子 i，都有一个胃口值 g[i]，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块…...

编程日记 2023/2/19 1:18:04

基于Springbot+微信小程序的购药平台的设计与实现

基于Springbot微信小程序的购药平台的设计与实现 ✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取项目下载方式🍅 一、…...

编程日记 2023/2/19 1:16:56

aws lambda rust的sdk和自定义运行时

rust的aws sdk 参考资料 https://docs.aws.amazon.com/sdk-for-rust/latest/dg/getting-started.htmlhttps://awslabs.github.io/aws-sdk-rust/https://github.com/awslabs/aws-sdk-rusthttps://github.com/awsdocs/aws-doc-sdk-examples/tree/main/rust_dev_preview rus sd…...

编程日记 2023/2/19 1:15:47

[安装之3] 笔记本加装固态和内存条教程（超详细）

由于笔记本是几年前买的了，当时是4000，现在用起来感到卡顿，启动、运行速度特别慢，就决定换个固态硬盘，加个内存条，再给笔记本续命几年。先说一下加固态硬盘SSD的好处：1.启动快 2.读取延迟小 3.写…...

编程日记 2023/2/19 1:14:37

极客时间左耳听风-高效学习

左耳听风——高效学习篇 P95 | 高效学习：端正学习态度本人真实⬇️⬇️⬇️⬇️ “ 大部分人都认为自己爱学习，但是： 他们都是只有意识没有行动，他们是动力不足的人。他们都不知道自己该学什么，他们缺乏方向和目标。…...

编程日记 2023/2/19 1:12:20

MSR寄存器访问

1.介绍 MSR是CPU的一组64位寄存器，每个MSR都有它的地址值（如下图所示），可以分别通过RDMSR 和WRMSR 两条指令进行读和写的操作。如图中为8个P-state寄存器，地址分别为0xC001 0064 ~ 0xC001 006B，每个寄存…...

编程日记 2023/2/19 1:11:09

ArcGIS：模型构建器实现批量按掩膜提取影像

用研究区域的矢量数据来裁剪栅格数据集时，一般我们使用ArcGIS中的【按掩膜提取工具】。如果需要裁剪的栅格数据太多，处理起来非常的麻烦，虽然ArcGIS中有批处理的功能，但是还是需要手动选择输入输出数据。如下图，鼠标…...

编程日记 2023/2/19 1:09:58

算法刷题打卡第94天：找出给定方程的正整数解

找出给定方程的正整数解难度：中等给你一个函数 f(x, y) 和一个目标结果 z，函数公式未知，请你计算方程 f(x,y) z 所有可能的正整数数对 x 和 y。满足条件的结果数对可以按任意顺序返回。尽管函数的具体式子未知，但它是单调…...

编程日记 2023/2/19 1:08:46

浅析SAS协议（1）：基本介绍

文章目录概述SAS协议发展历程SAS技术特性SAS设备拓扑SAS phySAS地址SAS设备类型SAS协议分层参考链接概述 SAS，全称Serial Attached SCSI，即串行连结SCSI，是一种采用了串行总线的高速互连技术。通过物理上使用串行总线连结，在链路…...

编程日记 2023/2/19 1:07:36

Java 加密常用的各种算法及其选择

在数字化时代，数据安全至关重要，Java 作为广泛应用的编程语言，提供了丰富的加密算法来保障数据的保密性、完整性和真实性。了解这些常用加密算法及其适用场景，有助于开发者在不同的业务需求中做出正确的选择。一、对称加密算法…...

编程新知 2025/11/22 20:41:02

【HTML-16】深入理解HTML中的块元素与行内元素

HTML元素根据其显示特性可以分为两大类：块元素(Block-level Elements)和行内元素(Inline Elements)。理解这两者的区别对于构建良好的网页布局至关重要。本文将全面解析这两种元素的特性、区别以及实际应用场景。 1. 块元素(Block-level Elements) 1.1 基本特性 …...

编程新知 2025/11/11 6:28:42

QT： `long long` 类型转换为 `QString` 2025.6.5

在 Qt 中，将 long long 类型转换为 QString 可以通过以下两种常用方法实现： 方法 1：使用 QString::number() 直接调用 QString 的静态方法 number()，将数值转换为字符串： long long value 1234567890123456789LL; …...

编程新知 2026/2/1 6:30:04

分布式增量爬虫实现方案

之前我们在讨论的是分布式爬虫如何实现增量爬取。增量爬虫的目标是只爬取新产生或发生变化的页面，避免重复抓取，以节省资源和时间。在分布式环境下，增量爬虫的实现需要考虑多个爬虫节点之间的协调和去重。另一种思路：将增量判…...

编程新知 2026/2/6 1:18:56

听写流程自动化实践，轻量级教育辅助

随着智能教育工具的发展，越来越多的传统学习方式正在被数字化、自动化所优化。听写作为语文、英语等学科中重要的基础训练形式，也迎来了更高效的解决方案。这是一款轻量但功能强大的听写辅助工具。它是基于本地词库与可选在线语音引擎构建，…...

编程新知 2026/1/30 1:47:17

Angular微前端架构：Module Federation + ngx-build-plus (Webpack)

以下是一个完整的 Angular 微前端示例，其中使用的是 Module Federation 和 npx-build-plus 实现了主应用（Shell）与子应用（Remote）的集成。 🛠️ 项目结构 angular-mf/ ├── shell-app/ # 主应用&…...

编程新知 2025/12/3 10:52:37

pikachu靶场通关笔记19 SQL注入02-字符型注入(GET)

目录一、SQL注入二、字符型SQL注入三、字符型注入与数字型注入四、源码分析五、渗透实战 1、渗透准备 2、SQL注入探测 （1）输入单引号 （2）万能注入语句 3、获取回显列orderby 4、获取数据库名database 5、获取表名…...

编程新知 2026/2/5 5:47:53

nnUNet V2修改网络——暴力替换网络为UNet++

更换前，要用nnUNet V2跑通所用数据集，证明nnUNet V2、数据集、运行环境等没有问题阅读nnU-Net V2 的 U-Net结构，初步了解要修改的网络，知己知彼，修改起来才能游刃有余。 U-Net存在两个局限，一是网络的最佳深度因应用场景而异，这取决于任务的难度和可用于训练的标注数…...

编程新知 2026/2/7 10:22:16