当前位置：首页 > news >正文

【深度学习】Loss为Nan的可能原因

news 2025/7/13 17:49:09

文章目录

1. 问题情境
2. 原因分析
3. 导致Loss为Nan的其他可能原因

1. 问题情境

在某个网络架构下，我为某个数据项引入了一个损失函数。
这个数据项是nn.Embedding类型的，我加入的损失函数是对nn.Embedding空间做约束。
因为我在没加入优化loss前，我的nn.Embedding的数据不在同一条直线上，希望通过下面这样一个loss，约束它们在同一条直线上：
在这里插入图片描述
我的变量计算是这么写的：

embedding = self.latent_codes(idx) # 通过nn.Embedding，根据idx获得对应的latent codes
vecs = self.latent_codes.weight.data # 获得所有的latent codes
d1 = torch.sum((vecs[0].unsqueeze(0) - embedding) ** 2, dim=1).sqrt() # 计算第i个latent codes到0的距离
d2 = torch.sum((vecs[len(vecs) - 1].unsqueeze(0) - embedding) ** 2, dim=1).sqrt() # 计算第i个latent codes到-1的距离
standard_distance = torch.dist(vecs[0], vecs[len(vecs) - 1], p=2) # 计算0-(-1)的标准距离

然后loss是这么写的：

latent_space_constraint = torch.abs(d1 + d2 - standard_distance) # 约束三点在一条直线上

结果导致了loss为Nan的情况

2. 原因分析

一开始没啥头绪，然后问了一下通义千问，loss为Nan的可能原因，给出的回答是：
------------------------------------
可能是数值稳定性问题：
新损失项的计算可能导致数值下溢或上溢，特别是在涉及指数函数、对数函数或其他可能导致极端值的数学运算时。
解决方案包括添加一个小的正偏移量（例如 1e-8）来避免除以零或对零取对数，或者使用数值稳定的损失函数实现。
------------------------------------
因为上述代码中，idx=0或idx=-1(此处用-1表示最后一个变量)得到的d1/d2可能为0，然后导致latent_space_constraint中对应计算结果为0，这可能是导致Nan的结果

于是我直接在loss上加了一个 $\lambda$ ：

latent_space_constraint = torch.abs(d1 + d2 - standard_distance) + 1e-8

但是完全没用，还是会出现Nan的问题，于是我问的第二个问题是：解决方案包括添加一个小的正偏移量（例如 1e-8）来避免除以零或对零取对数，或者使用数值稳定的损失函数实现。这个小的正偏移量是在loss上直接加吗？，给出的回答是：
------------------------------------
在深度学习中，为了避免数值不稳定的情况，比如在损失函数中对非常接近零的数取对数或除以接近零的数，我们确实会添加一个小的正偏移量（常被称为 epsilon）。但是，这个偏移量不是直接加到整个损失函数上，而是加到可能会引起数值不稳定的部分上。
…
------------------------------------
那么我可能引起数值不稳定的地方实际上是d1/d2/standard_distance，所以把代码修改成在数值计算的时候加小的偏移量

embedding = self.latent_codes(idx) # 通过nn.Embedding，根据idx获得对应的latent codes
vecs = self.latent_codes.weight.data # 获得所有的latent codes
d1 = torch.sum((vecs[0].unsqueeze(0) - embedding) ** 2 + 1e-8, dim=1).sqrt() # 计算第i个latent codes到0的距离
d2 = torch.sum((vecs[len(vecs) - 1].unsqueeze(0) - embedding) ** 2 + 1e-8, dim=1).sqrt() # 计算第i个latent codes到-1的距离
standard_distance = torch.dist(vecs[0], vecs[len(vecs) - 1] + 1e-8, p=2) # 计算0-(-1)的标准距离

解决上述问题，loss计算正常，但是还要考虑的是这个loss会不会导致所有embedding趋向同一个点的情况，还要约束0和-1的latent codes不能过于相似

3. 导致Loss为Nan的其他可能原因

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
当在深度学习模型中加入新的损失项后，特定的权重或参数变为 NaN，这通常指向几个关键的问题区域。对于您的情况，pose_latent_codes 中的特定条目（索引为 0 和 5）在一轮优化后变为 NaN，可能的原因如下：

特定输入导致的数值不稳定：
- 加入的新损失项可能对某些输入特别敏感，导致计算中出现极大的数值或数值下溢，最终产生 NaN。这可能是因为输入数据中的异常值或不适当的数据预处理。
梯度爆炸：
- 特定输入或损失计算可能导致针对 pose_latent_codes 的梯度变得非常大，特别是对于索引 0 和 5 的条目。这通常发生在深度神经网络中，尤其是当网络层深且梯度在反向传播过程中累积时。
正则化或惩罚项：
- 如果新加入的损失项包含正则化项（如 L1 或 L2 正则化），并且正则化强度设置得过高，这可能对某些参数造成过度惩罚，导致 NaN。
数值计算错误：
- 在新损失项的计算中，可能有某些操作（如除以接近零的数、对负数取对数等）导致了数值不稳定，进而产生 NaN。
代码错误或实现问题：
- 实现新损失项时可能有代码错误，比如数组索引错误、维度不匹配、数据类型不一致等，这些问题在特定情况下才显现出来，例如针对 pose_latent_codes 的特定条目。

排查和解决方案：

检查输入数据：确认数据预处理步骤，确保没有异常值或不合理的数据点进入模型，特别是在索引 0 和 5 的位置。
梯度裁剪：在优化器中使用梯度裁剪技术，限制梯度的大小，防止梯度爆炸。
降低学习率：尝试降低学习率，以减少每一步更新的幅度，使训练更加稳定。
检查正则化项：如果新损失项包含正则化，尝试降低正则化系数，或检查正则化项的实现是否正确。
数值稳定性改进：在损失计算中加入数值稳定性措施，比如避免除以零、使用 log-sum-exp 技巧避免数值下溢等。
代码审查：仔细审查新损失项的实现代码，确保所有操作都是正确的，没有潜在的逻辑错误或数据类型不匹配。
逐层检查梯度：在训练过程中打印各层的梯度，识别梯度异常增大的层，有助于定位问题所在。

通过上述步骤，您可以逐步排查并解决导致特定权重变为 NaN 的问题。在复杂模型中，问题可能不单一，需要综合多个方面的检查和调整。
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

【深度学习】Loss为Nan的可能原因

文章目录

1. 问题情境

2. 原因分析

3. 导致Loss为Nan的其他可能原因

相关文章：

【深度学习】Loss为Nan的可能原因

解密！考研数学满分学霸的备考书单

AI绘画工具介绍

【APP逆向】央视频播放量增加，逆向全过程解密

三星系统因何而成？或许是因为吞噬了第四颗恒星

【MySQL】（基础篇六） —— 过滤数据

利用 HTML5 Canvas 实现在线签字功能

GaussDB技术解读——GaussDB架构介绍（二）

EfficientNet详解

UI前端交互的艺术：探索设计的四个维度、五个层面、六个要点与七大原则

java接口设计需要考虑哪些方面

Opencv图像处理

LeetCode | 2879.显示前三行

Qt实现简易播放器

适配Android12启动页

人工智能在医学领域的应用及技术实现

MySQL—多表查询—练习（1）

千益畅行：合法合规的旅游卡服务，打破误解

【Echarts系列】水平柱状图

怎样把便签里的内容移到桌面？桌面便签软件使用方法

龙虎榜——20250610

DockerHub与私有镜像仓库在容器化中的应用与管理

可靠性+灵活性：电力载波技术在楼宇自控中的核心价值

什么是库存周转？如何用进销存系统提高库存周转率？

2025 后端自学UNIAPP【项目实战：旅游项目】6、我的收藏页面

【android bluetooth 框架分析 04】【bt-framework 层详解 1】【BluetoothProperties介绍】

【Zephyr 系列 10】实战项目：打造一个蓝牙传感器终端 + 网关系统（完整架构与全栈实现）

鱼香ros docker配置镜像报错：https://registry-1.docker.io/v2/

代理篇12|深入理解 Vite中的Proxy接口代理配置

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据