当前位置：首页 > news >正文

pytorch冻结参数训练的坑

news 2026/3/5 21:42:01

由于项目需要训练一个主干网络接多个分支的模型，所以先训练一个主干网络加第一个分支，再用另外的数据训练第二个分支，训练的过程中需要冻结主干网络部分，后面的分支训练过程也一样需要冻结主干网络部分。

冻结模型的方式

for name, para in model.named_parameters():# 冻结backbone的权重if name.split(".")[0] == "backbone":para.requires_grad = False        # 或者用para.requires_grad_(False)，一个是通过属性直接赋值，一个是通过函数赋值else:para.requires_grad = True

# 可以打印需要更新梯度的参数
for name, value in model.named_parameters():print(name, "\t更新梯度：",value.requires_grad)

坑1：这样做并不能冻结batchnorm层的参数，所以需要在训练中手动冻结。如：

def fix_bn(m):classname = m.__class__.__name__if classname.find('SyncBatchNorm') != -1 or classname.find('InstanceNorm2d') != -1 or classname.find('BatchNorm2d') != -1:          #SyncBatchNorm, InstanceNorm2dif m.num_features in [32, 64, 96, 128, 256, 384, 768, 192, 1152, 224]:      # 需要冻结的BN层的通道数m.eval()def train():for epoch in range(max_epoch):model.train()if args.freeze:model.apply(fix_bn)model.backbone[5][0].block[0][1].eval()   # 假如需要冻结的BN层通道数和不需要冻结的BN层通道数一样，则需要单独写for batch_idx, (data, target) in enumerate(train_loader):...

坑2：用了冻结训练（freeze）就不要用EMA方式更新模型了，不然收敛缓慢不说，还会造成前面冻结的参数产生变化，可以从EMA的代码看出端倪：

class EMA:def __init__(self, model, decay=0.9999):super().__init__()import copyself.decay = decayself.model = copy.deepcopy(model)self.model.eval()def update_fn(self, model, fn):with torch.no_grad():e_std = self.model.state_dict().values()#m_std = model.module.state_dict().values()   # multi-gpum_std = model.state_dict().values()          # single-gpufor e, m in zip(e_std, m_std):e.copy_(fn(e, m))def update(self, model):self.update_fn(model, fn=lambda e, m: self.decay * e + (1. - self.decay) * m)

可以看出EMA的方式更新模型方式，大部分是结合上一个模型的参数的，即：

model_update = decay*model(t-1) + (1-decay)*model(t)       # model(t-1) 代表上一次迭代模型的参数，model(t)代表当前迭代得到的模型参数

虽然冻结了backbone的参数，阻止了梯度在backbone中反向传播，但参数由于经过如上乘法及加法运算，由于精度原因，还是会发生微小变化，虽然训练次数增加，这个变化会扩大，从而达不到冻结训练的效果。而且从计算公式可以看出来，采用EMA的方式更新模型参数，参数会更新得很慢，会造成网络难以学习的“错觉”。我在这里困住了3天，有怀疑过是否是网络设计问题，是否是多GPU同步的问题，是否是参数设置，如学习率过小，权重衰减过大，或者dropout设置过大等等，最终一步一步排除定位到EMA的问题。
以这次的经验来看，EMA只适合在上一次训练得到模型的基础上，这一次加了额外的数据，需要在上一次的基础上做微调的情况。

pytorch冻结参数训练的坑

由于项目需要训练一个主干网络接多个分支的模型，所以先训练一个主干网络加第一个分支，再用另外的数据训练第二个分支，训练的过程中需要冻结主干网络部分，后面的分支训练过程也一样需要冻结主干网络部分。冻结模型的方式 for nam…...

编程日记 2023/9/22 16:47:29

P1827 [USACO3.4] 美国血统 American Heritage（前序 + 中序生成后序）

P1827 [USACO3.4] 美国血统 American Heritage（前序中序生成后序） 一、前言二叉树入门题。涉及到树的基本知识、树的结构、树的生成。本文从会从结构，到完成到，优化。二、基础知识 Ⅰ、二叉树的遍历前序遍历&#xff…...

编程日记 2023/9/22 16:46:27

【四、centOS安装docker】

安装docker sudo yum install -y yum-utils device-mapper-persistent-data lvm2 如果以上报错备份系统自带yum源配置文件 mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup进入 /etc/yum.repos.d cd /etc/yum.repos.d删除文件 rm -f *.r…...

编程日记 2023/9/22 16:44:25

想学嵌入式开发，薪资怎么样？

想学嵌入式开发，薪资怎么样？ 对于嵌入式工程师来说呢，它重点学习内容就是首先一定要打好基础，如果从编程语言角度来讲，那么可以在语言上选C或者C，你可以选择其中任何一门语言作为你的入门。最近很多小伙伴…...

编程日记 2023/9/22 16:42:24

SQL死锁进程内容查询语句

1.方式1 SELECT object_name(A.resource_associated_entity_id) as TABLENAME, A.request_session_id AS SPID,DB_NAME(B.dbid) AS DBName,B.blocked,B.dbid,B.program_name,B.waitresource,B.lastwaittype,B.loginame,B.hostname,B.login_time,B.last_batch--,B.* FROM sy…...

编程日记 2023/9/22 16:40:22

Ubuntu 20.04中Nightingale二进制部署

参考博客《【夜莺监控】初识夜莺，强！》 lsb_release -r可以看到操作系统版本是20.04，uname -r可以看到内核版本是5.5.19。 sudo apt-get update进行更新镜像源。完成之后，如下图： sudo apt-get upgrade更新软件…...

编程日记 2023/9/22 16:39:21

深入探讨Java面试中内存泄漏：如何识别、预防和解决

引言在编写和维护Java应用程序时，内存泄漏是一个重要的问题，可能导致性能下降和不稳定性。本文将介绍内存泄漏的概念，为什么它在Java应用程序中如此重要，并明确本文的目标，即识别、预防和解决内存泄漏问题。内存泄…...

编程日记 2023/9/22 16:35:17

win10 安装.net framework 3.5，错误代码0x8024401C

win10 安装.net framework 3.5，错误代码0x8024401C 参考链接：https://www.gxlsystem.com/diannaowenti-386775.html 解决方法如下，cmd中执行： net stop wuauserv reg delete HKEY_LOCAL_MACHINE\SOFTWARE\Policies\Microsoft\W…...

编程日记 2023/9/22 16:34:16

杂记 | Langchain中few-shot提示词模板的使用（给提示词添加示例）

文章目录 01 普通的提示词模板02 few-shot提示词模板 Langchain是一个集成多个大语言模型的开源框架，可以使用它来快速开发大语言模型应用。本文的代码使用到的模块： from typing import List, Dict from langchain import PromptTemplate, FewShotPr…...

编程日记 2023/9/22 16:32:14

SVN -基础

SVN - 基础概念操作步骤开发实际经验概念带SVN路径有隐藏文件，记录repo的一些信息，与repo进行关联，可以与repo进行同步不带SVN路径只是单纯的文件，与repo独立操作步骤 checkout 具有路径 URLcheckout dir 输出目标文件夹…...

编程日记 2023/9/22 16:30:13

MySQL基础终端命令与Python简单操作MySQL

文章目录 MySQL终端命令1. 进入mysql2. 创建数据库3. 选择数据库4. 创建数据表1. 主键约束2. 外键约束3. 非空约束4. 唯一约束5. 使用默认约束6. 设置id为自增列 5. 查看数据表6. 修改数据表1. 修改表名2. 修改表的字段类型3. 修改表的字段名4. 为表添加字段5. 删除字段6. 调整…...

编程日记 2023/9/22 16:29:12

编译原理.龙书学习1

第一章： 编译器：将程序翻译成一种能够被计算机执行的形式解释器：解释器直接利用用户提供的输入执行源程序中指定的操作一个编译器的结构编译器将源程序映射为语义上等价的目标程序，这个映射过程由两部分组成：分析…...

编程日记 2023/9/22 16:28:10

anaconda安装完成之后输入conda -V没有反应

anaconda安装完成后，conda没有反应 vim ~/.bashrc后面添加内容 # added by Anaconda3 5.3.0 installer # >>> conda init >>> # !! Contents within this block are managed by conda init !! __conda_setup"$(CONDA_REPORT_ERRORSfalse /u…...

编程日记 2023/9/22 16:27:09

netty报文解析之粘包半包问题

粘包问题 Netty 的粘包问题是指在网络传输过程中，由于 TCP 协议本身的特点，导致发送方发送的若干个小数据包被接收方合并成了一个大数据包。这种情况称为粘包。 TCP 协议是面向流的协议，没有数据边界，发送方发送的数据可能会被分…...

编程日记 2023/9/22 16:23:05

EasyCode整合mybatis-plus的配置

文章目录 entitymapper.javamapper.xmlserviceserviceImplcontroller 这篇文章不教你如何安装和使用EasyCode，只是贴出可以使用的配置。具体EasyCode的使用可以查看其它的文章。 entity ##导入宏定义 $!{define.vm}##保存文件（宏定义） #sa…...

编程日记 2023/9/22 16:21:03

实施预测性维护解决方案的挑战及PreMaint的应对方法

前面我们介绍了企业选择预测性维护解决方案的常见问题和PreMaint的策略，本期我们将带来实施过程中可能会遇到的挑战，以及如何通过PreMaint来应对这些挑战，以实现可靠的预测性维护。随着工业技术的不断进步，预测性维护作为一种先进…...

编程日记 2023/9/22 16:19:00

1. js中let、var、const定义变量区别与方式

1 声明语法 var upperA A; let upperB B; const upperC C; 只声明不初始化的结果，【 const定义的常量不可以修改，而且必须初始化】 // var 声明变量 var upperA; console.log(打印大写的A：%s, upperA); // 结果：打印大写的A&am…...

编程日记 2023/9/22 16:14:57

【STM32学习】I2C通信协议 | OLED屏

🐱作者：一只大喵咪1201 🐱专栏：《STM32学习》 🔥格言：你只管努力，剩下的交给时间！ 今天需要将代码烧录到开发板中，本喵默认大家都会创建工程，以及进行基本的…...

编程日记 2023/9/22 16:12:54

Nvme Spec 第一章节学习

Nvme Express Base Specification 第一章简介 1.1概述 NVM ExpressTM（NVMeTM）接口允许主机软件与非易失性存储器子系统通信。此接口针对企业和客户端固态驱动器进行了优化，通常作为寄存器级接口连接到PCI Express接口。注：在…...

编程日记 2023/9/22 16:11:53

第一章：最新版零基础学习 PYTHON 教程（第九节 - Python 语句中的 – 多行语句）

Python 中的语句：在Python中，语句是Python解释器可以读取和执行的逻辑命令。它可能是Python 中的赋值语句或表达式。 Python 中的多行语句：在Python中，语句通常写成一行，每行的最后一个字符是换行符。要将语句扩展到一行或多行，我们可以使用大括号 {}、圆括号 ()、方…...

编程日记 2023/9/22 16:10:52

铭豹扩展坞 USB转网口突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别，但在其他电脑上正常工作时，问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤，帮助你快速找到故障原因：背景：一个M-pard（铭豹）扩展坞的网卡突然无法识别了，扩展出来的三个USB接口正常。…...

编程新知 2026/3/5 15:09:15

19c补丁后oracle属主变化，导致不能识别磁盘组

补丁后服务器重启，数据库再次无法启动 ORA01017: invalid username/password; logon denied Oracle 19c 在打上 19.23 或以上补丁版本后，存在与用户组权限相关的问题。具体表现为，Oracle 实例的运行用户（oracle）和集…...

编程新知 2026/3/5 20:57:07

docker详细操作--未完待续

docker介绍 docker官网: Docker：加速容器应用程序开发 harbor官网：Harbor - Harbor 中文使用docker加速器: Docker镜像极速下载服务 - 毫秒镜像是什么 Docker 是一种开源的容器化平台，用于将应用程序及其依赖项（如库、运行时环…...

编程新知 2026/3/5 11:19:57

java_网络服务相关_gateway_nacos_feign区别联系

1. spring-cloud-starter-gateway 作用：作为微服务架构的网关，统一入口，处理所有外部请求。核心能力： 路由转发（基于路径、服务名等）过滤器（鉴权、限流、日志、Header 处理）支持负…...

编程新知 2025/11/28 2:51:33

uni-app学习笔记二十二---使用vite.config.js全局导入常用依赖

在前面的练习中，每个页面需要使用ref，onShow等生命周期钩子函数时都需要像下面这样导入 import {onMounted, ref} from "vue" 如果不想每个页面都导入，需要使用node.js命令npm安装unplugin-auto-import npm install unplugin-au…...

编程新知 2026/3/3 5:06:38

OPENCV形态学基础之二腐蚀

一.腐蚀的原理 (图1) 数学表达式：dst(x,y) erode(src(x,y)) min(x,y)src(xx,yy) 腐蚀也是图像形态学的基本功能之一，腐蚀跟膨胀属于反向操作，膨胀是把图像图像变大，而腐蚀就是把图像变小。腐蚀后的图像变小变暗淡。腐蚀…...

编程新知 2026/3/5 2:59:37

python报错No module named ‘tensorflow.keras‘

是由于不同版本的tensorflow下的keras所在的路径不同，结合所安装的tensorflow的目录结构修改from语句即可。原语句： from tensorflow.keras.layers import Conv1D, MaxPooling1D, LSTM, Dense 修改后： from tensorflow.python.keras.lay…...

编程新知 2026/2/27 10:48:27

高效线程安全的单例模式：Python 中的懒加载与自定义初始化参数

高效线程安全的单例模式：Python 中的懒加载与自定义初始化参数在软件开发中，单例模式（Singleton Pattern）是一种常见的设计模式，确保一个类仅有一个实例，并提供一个全局访问点。在多线程环境下，实现单例模式时需要注意线程安全问题，以防止多个线程同时创建实例，导致…...

编程新知 2025/11/25 19:50:27

纯 Java 项目（非 SpringBoot）集成 Mybatis-Plus 和 Mybatis-Plus-Join

纯 Java 项目（非 SpringBoot）集成 Mybatis-Plus 和 Mybatis-Plus-Join 1、依赖1.1、依赖版本1.2、pom.xml 2、代码2.1、SqlSession 构造器2.2、MybatisPlus代码生成器2.3、获取 config.yml 配置2.3.1、config.yml2.3.2、项目配置类 2.4、ftl 模板2.4.1、…...

编程新知 2026/2/17 7:26:46

抽象类和接口（全）

一、抽象类 1.概念：如果⼀个类中没有包含⾜够的信息来描绘⼀个具体的对象，这样的类就是抽象类。像是没有实际⼯作的⽅法,我们可以把它设计成⼀个抽象⽅法，包含抽象⽅法的类我们称为抽象类。 2.语法在Java中，⼀个类如果被 abs…...

编程新知 2026/3/5 13:42:55

冻结模型的方式

坑1：这样做并不能冻结batchnorm层的参数，所以需要在训练中手动冻结。如：

坑2：用了冻结训练（freeze）就不要用EMA方式更新模型了，不然收敛缓慢不说，还会造成前面冻结的参数产生变化，可以从EMA的代码看出端倪：

相关文章：