当前位置：首页 > news >正文

基于pytorch的深度学习基础4——损失函数和优化器

news 2026/2/8 23:17:21

四．损失函数和优化器

4.1 均值初始化

为减轻梯度消失和梯度爆炸，选择合适的权重初值。

十种初始化方法

Initialization Methods

1. Xavie r均匀分布

2. Xavie r正态分布

4. Kaiming正态分布

5. 均匀分布

6. 正态分布

7. 常数分布

8. 正交矩阵初始化

9. 单位矩阵初始化

10. 稀疏矩阵初始化

4.2 损失函数

1、nn.CrossEntropyLoss

nn.CrossEntropyLoss(weight=None,

size_average=None,

ignore_index=-100,

reduce=None,

reduction=‘mean’‘)

功能： nn.LogSoftmax ()与nn.NLLLoss ()结合，进行

交叉熵计算

主要参数：

• w eigh t：各类别的loss设置权值

•

ignore _ind e x：忽略某个类别

•

redu c tion ：计算模式，可为none/sum /m e an

none- 逐个元素计算

sum- 所有元素求和，返回标量

2、 nn.NLLLoss

功能：实现负对数似然函数中的负号功能

主要参数：

• weight：各类别的loss设置权值

• ignore_index：忽略某个类别

•reduction：计算模式，可为none/sum /m e an

none-逐个元素计算

nn.NLLLoss(weight=None,

size_average=None,

ignore_index=-100,

reduce=None,

reduction='mean')sum-所有元素求和，返回标量

m e an-加权平均，返回标量

3、 nn.BCELoss

nn.BCELoss(weight=None,

size_average=None,

reduce=None,

reduction='mean’)

功能：二分类交叉熵

注意事项：输入值取值在[0,1]

主要参数：

• weight：各类别的loss设置权值

• ignore_index：忽略某个类别

• reduction：计算模式，可为none/sum /m e an

none-逐个元素计算

4、 nn.BCEWithLogitsLoss

nn.BCEWithLogitsLoss(weight=None,

size_average=None,

reduce=None, reduction='mean',

pos_weight=None)

功能：结合Sigmoid与二分类交叉熵

注意事项：网络最后不加sigmoid函数

主要参数：

• pos _weight ：正样本的权值

• weight：各类别的loss设置权值

•ignore_index：忽略某个类别

•reduction ：计算模式，可为none/sum /mean

mean-加权平均，返回标量e aum

5. nn.L1Loss

6. nn.MSELoss

7. nn.SmoothL1Loss

8. nn.PoissonNLLLoss

9. nn.KLDivLoss

10. nn.MarginRankingLoss

11. nn.MultiLabelMarginLoss

12. nn.SoftMarginLoss

13. nn.MultiLabelSoftMarginLoss

14. nn.MultiMarginLoss

15. nn.TripletMarginLoss

16. nn.HingeEmbeddingLoss

17. nn.CosineEmbeddingLoss

18. nn.CTCLoss -所有元素求和，返回标量

4.3优化器 Optimizer

pytorch的优化器：管理并更新模型中可学习参数的值，使得模型输出更接近真实标签

导数：函数在指定坐标轴上的变化率

方向导数：指定方向上的变化率

梯度：一个向量，方向为方向导数取得最大值的方向

基class Optimizer(object):

def __init__(self, params, defaults):

self.defaults = defaults

self.state = defaultdict(dict)

self.param_groups = []

param_groups = [{'params':

param_groups}]本属性

• defaults：优化器超参数

• state：参数的缓存，如mom en tum的缓存

• params_groups：管理的参数组

• _step_count：记录更新次数，学习率调整中使用

基本方法

• 1.zero_grad()：清空所管理参数的梯度

pytorch特性：张量梯度不自动清零

class Optimizer(object):

def zero_grad(self):

for group in self.param_groups:

for p in group['params']:

if p.grad is not None:

p.grad.detach_()

p.grad.zero_()

2. step()：执行一步更新

3. add_param_group()：添加参数组

class Optimizer(object):

def add_param_group(self, param_group):

for group in self.param_groups:

param_set.update(set(group['params’]))

self.param_groups.append(param_group)

4.state_dict()：获取优化器当前状态信息字典

• 5.load_state_dict() ：加载状态信息字典

class Optimizer(object):

def state_dict(self):

return {

'state': packed_state,

'param_groups': param_groups,

}

def load_state_dict(self, state_dict):

学习率

Learning Rate

梯度下降:

𝒘𝒊+𝟏 = 𝒘𝒊 − 𝒈(𝒘𝒊 )

𝒘𝒊+𝟏 = 𝒘𝒊 − LR * 𝒈(𝒘𝒊)

学习率（learning rate）控制更新的步伐

Momentum（动量，冲量）：

结合当前梯度与上一次更新信息，用于当前更新

梯度下降：

𝒘𝒊+𝟏 = 𝒘𝒊 − 𝒍𝒓 ∗ 𝒈(𝒘𝒊 )

pytorch中更新公式：

𝒗𝒊 = 𝒎 ∗ 𝒗𝒊−𝟏 + 𝒈(𝒘𝒊 )

𝒘𝒊+𝟏 = 𝒘𝒊 − 𝒍𝒓 ∗ 𝒗𝒊

𝒗𝟏𝟎𝟎 = 𝒎 ∗ 𝒗𝟗𝟗 + 𝒈(𝒘𝟏𝟎𝟎)

= 𝒈(𝒘𝟏𝟎𝟎) + 𝒎 ∗ (𝒎 ∗ 𝒗𝟗𝟖 + 𝒈(𝒘𝟗𝟗))

= 𝒈(𝒘𝟏𝟎𝟎) + 𝒎 ∗ 𝒈(𝒘𝟗𝟗) + 𝒎𝟐 ∗ 𝒗𝟗𝟖

= 𝒈(𝒘𝟏𝟎𝟎) + 𝒎 ∗ 𝒈(𝒘𝟗𝟗) + 𝒎𝟐 ∗ 𝒈(𝒘𝟗𝟖) + 𝒎𝟑 ∗ 𝒗𝟗𝟕

1.optim.SGD

主要参数：

• params：管理的参数组

• lr：初始学习率

• momentum：动量系数，贝塔

• weight_decay：L2正则化系数

• nesterov：是否采用NAG

optim.SGD(params, lr=<object object>,

momentum=0, dampening=0,

weight_decay=0, nesterov=False)

优化器

Optimizer

1. optim.SGD：随机梯度下降法

2. optim.Adagrad：自适应学习率梯度下降法

3. optim.RMSprop： Adagrad的改进

4. optim.Adadelta： Adagrad的改进

5. optim.Adam：RMSprop结合Momentum

6. optim.Adamax：Adam增加学习率上限

7. optim.SparseAdam：稀疏版的Adam

8. optim.ASGD：随机平均梯度下降

9. optim.Rprop：弹性反向传播

10. optim.LBFGS：BFGS的改进

基于pytorch的深度学习基础4——损失函数和优化器

四．损失函数和优化器 4.1 均值初始化为减轻梯度消失和梯度爆炸，选择合适的权重初值。十种初始化方法 Initialization Methods 1. Xavie r均匀分布 2. Xavie r正态分布 4. Kaiming正态分布 5. 均匀分布 6. 正态分布 7. 常数分布 8. 正交矩阵初…...

编程日记 2024/12/9 19:39:01

网络安全信息收集（总结）更新

目录重点： 前言： 又学到了，就是我们什么时候要子域名收集，什么时候收集域名，重点应该放前面思考： 信息收集分为哪几类，什么是主域名，为什么要收集主域名，为什么要收…...

编程日记 2024/12/9 19:38:00

web斗地主游戏实现指北

前后端通信作为一个即时多人游戏，不论是即时聊天还是更新玩家状态，都需要服务端有主动推送功能，或者客户端轮询。轮询的时间间隔可能导致游玩体验差，因为不即时更新，而且请求数量太多可能会打崩服务器。建议在cs间…...

编程日记 2024/12/9 19:36:59

SpringMVC其他扩展

一、全局异常处理机制: 1.异常处理两种方式: 开发过程中是不可避免地会出现各种异常情况的，例如网络连接异常、数据格式异常、空指针异常等等。异常的出现可能导致程序的运行出现问题，甚至直接导致程序崩溃。因此，在开发过程中，…...

编程日记 2024/12/9 19:35:56

【Linux】网络服务

声明，以下内容均学习自《Linux就该这么学》一书 1、创建网络会话 Linux系统使用NetworkManager提供网络服务，它是一种动态管理网络配置的守护进程，能够让网络设备保持连接状态。 nmcli nmcli是一款基于命令行的网络配置工具，它…...

编程日记 2024/12/9 19:34:55

工作：SolidWorks从3D文件导出2D的DWG或DXF类型文件方法

工作：SolidWorks从3D文件导出2D的DWG或DXF类型文件方法 SolidWorks从3D文件导出2D的DWG或2D DXF类型文件方法（一）打开3D文件（二）从装配体到工程图（三）拖出想要的角度的图型（四&#…...

编程日记 2024/12/9 19:30:50

IDL学习笔记（五）MODIS数据（Grid）

IDL学习笔记（四） MODIS Grid数据的重投影正弦投影是以米为单位的经纬度网格是以度为单位的但是转换之后，不会一一对应，所以需要对中间空缺位置需要进行一个填补。核心问题: 把一个点从一个空间参考系放到另一个空间参…...

编程日记 2024/12/9 19:27:46

JavaScript语言介绍

JavaScrip是一门编程语言浏览器的工作原理所以得域名都会被解析成ip地址，ip地址就是服务器地址，服务器地址会返回一个html文件，解析html遇到css文件和JavaScript标签就会把相应内容下载下来进行解析。认识浏览器的内核浏览器的渲染过程 …...

编程日记 2024/12/9 19:26:44

Lua使用点号和冒号的区别

首先建立一个table，再分别定义两个方法，如下： local meta {}function meta:test1(...)print(self)print("")for k,v in pairs({...}) doprint(v)end endfunction meta.test2(...)print(self)print("")for k,v in pairs…...

编程日记 2024/12/9 19:21:38

LLM - 开源视觉多模态 LLaVA-CoT(o1) 深度推理模型测试与源码教程

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/144304351 免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。 LLaVA-…...

编程日记 2024/12/9 19:19:36

Ansible的yum和saltstack的哪个功能相似

Ansible的yum和saltstack的哪个功能相似在 Ansible 和 SaltStack 中，Ansible 的 yum 模块和 SaltStack 的 pkg 模块功能相似。它们都用于管理软件包，支持安装、升级、删除和查询等操作。 Ansible 的 yum 模块用途： 专门用于基于 Red Hat …...

编程日记 2024/12/9 19:16:32

启动paimon -- 本地模式演示 bin/start-cluster.sh-- 启动sqlclient bin/sql-client.sh示例 -- 创建catalog，每次都要创建，创建一个已经存在的catalog相当于使用 CREATE CATALOG fs_catalog WITH (typepaimon,warehousefile:/data/soft/paimon/catalog…...

编程日记 2024/12/9 19:14:27

Java 中 List 接口的学习笔记

1. 什么是 List？ 在 Java 中，List 是一个接口，属于 Java Collections Framework。它表示一个有序的集合，可以包含重复元素。List 接口允许通过索引访问元素，提供了多种实现方式，如 ArrayList 和 LinkedLis…...

编程日记 2024/12/9 19:13:26

【原生js案例】webApp实现鼠标移入移出相册放大缩小动画

图片相册这种动画效果也很常见，在我们的网站上。鼠标滑入放大图片，滑出就恢复原来的大小。现在我们使用运动定时器来实现这种滑动效果。感兴趣的可以关注下我的系列课程【webApp之h5端实战】，里面有大量的css3动画效果制作原生知识分析&…...

编程日记 2024/12/9 19:12:23

LVGL9 定时器模块

文章目录前言定时器系统概述特点定时器的创建函数：lv_timer_create函数：lv_timer_create_basic 定时器的控制函数：lv_timer_ready函数：lv_timer_reset 定时器的参数设置函数：lv_timer_set_cb函数：lv_time…...

编程日记 2024/12/9 19:11:21

Qt学习笔记第51到60讲

第51讲记事本实现打开功能回到第24个功能文件Notepad，给UI中的各个控件添加槽函数。 ①开始按钮 void Widget::on_btnOpen_clicked() {QString fileNameQFileDialog::getOpenFileName(this,tr("Open File"),"E:\\6_Qt Projects\\24_Notepad\\fi…...

编程日记 2024/12/9 19:09:18

网页设计--axios作业

根据以下mock地址中的json数据，使用axios异步方式获取并显示在页面中。 https://apifoxmock.com/m1/3761592-3393136-default/peotfindAll?apifoxApiId171582689 {"code": 1,"msg": "success","data": [{"id": …...

编程日记 2024/12/9 19:07:16

SpringBoot 整合 Avro 与 Kafka 详解

SpringBoot 整合 Avro 与 Kafka 详解在大数据处理和实时数据流场景中，Apache Kafka 和 Apache Avro 是两个非常重要的工具。Kafka 作为一个分布式流处理平台，能够高效地处理大量数据，而 Avro 则是一个用于序列化数据的紧凑、快速的二进制数…...

编程日记 2024/12/9 19:05:13

若依 ruoyi VUE el-select 直接获取选择option 的 label和value

1、最新在研究若依这个项目，我使用的是前后端分离的方案，RuoYi-Vue-fast(后端) RuoYi-Vue-->ruoyi-ui(前端)。RuoYi-Vue-fast是单应用版本没有区分那么多的modules 自己开发起来很方便，这个项目运行起来很方便，但是需要自定义的…...

编程日记 2024/12/9 19:04:12

大数据-155 Apache Druid 架构与原理详解数据存储索引服务压缩机制

点一下关注吧！！！非常感谢！！持续更新！！！ 目前已经更新到了： Hadoop（已更完）HDFS（已更完）MapReduce（已更完&am…...

编程日记 2024/12/9 19:03:11

【大模型RAG】拍照搜题技术架构速览：三层管道、两级检索、兜底大模型

摘要拍照搜题系统采用“三层管道（多模态 OCR → 语义检索 → 答案渲染）、两级检索（倒排 BM25 向量 HNSW）并以大语言模型兜底”的整体框架： 多模态 OCR 层将题目图片经过超分、去噪、倾斜校正后，分别用…...

编程新知 2026/2/8 4:32:38

在rocky linux 9.5上在线安装 docker

前面是指南，后面是日志 sudo dnf config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo sudo dnf install docker-ce docker-ce-cli containerd.io -y docker version sudo systemctl start docker sudo systemctl status docker …...

编程新知 2025/7/27 10:03:12

【机器视觉】单目测距——运动结构恢复

ps：图是随便找的，为了凑个封面前言在前面对光流法进行进一步改进，希望将2D光流推广至3D场景流时，发现2D转3D过程中存在尺度歧义问题，需要补全摄像头拍摄图像中缺失的深度信息，否则解空间不收敛&#xf…...

编程新知 2026/2/8 3:03:01

微服务商城-商品微服务

数据表 CREATE TABLE product (id bigint(20) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT 商品id,cateid smallint(6) UNSIGNED NOT NULL DEFAULT 0 COMMENT 类别Id,name varchar(100) NOT NULL DEFAULT COMMENT 商品名称,subtitle varchar(200) NOT NULL DEFAULT COMMENT 商…...

编程新知 2026/1/29 18:30:30

从零实现STL哈希容器：unordered_map/unordered_set封装详解

本篇文章是对C学习的STL哈希容器自主实现部分的学习分享希望也能为你带来些帮助~ 那咱们废话不多说，直接开始吧！ 一、源码结构分析 1. SGISTL30实现剖析 // hash_set核心结构 template <class Value, class HashFcn, ...> class hash_set {ty…...

编程新知 2026/1/31 12:47:25