当前位置：首页 > news >正文

加载预训练模型，模型微调，在自己的数据集上快速出效果

news 2025/7/3 4:48:06

针对于某个任务，自己的训练数据不多，先找到一个同类的别人训练好的模型，把别人现成的训练好了的模型拿过来，换成自己的数据，调整一下参数，再训练一遍，这就是微调（fine-tune）。 PyTorch里面提供的经典的网络模型都是官方通过Imagenet的数据集与训练好的数据，如果我们的数据训练数据不够，这些数据是可以作为基础模型来使用的。(Fine tuning 模型微调)
Fine tuning 模型微调的好处
- 对于数据集本身很小（几千张图片）的情况，从头开始训练具有几千万参数的大型神经网络是不现实的，因为越大的模型对数据量的要求越大，过拟合无法避免。这时候如果还想用上大型神经网络的超强特征提取能力，只能靠微调已经训练好的模型。
- 可以降低训练成本：如果使用导出特征向量的方法进行迁移学习，后期的训练成本非常低，用 CPU 都完全无压力，没有深度学习机器也可以做。
- 前人花很大精力训练出来的模型在大概率上会比你自己从零开始搭的模型要强悍，没有必要重复造轮子。
迁移学习初衷是节省人工标注样本的时间，让模型可以通过一个已有的标记数据的领域向未标记数据领域进行迁移从而训练出适用于该领域的模型，直接对目标域从头开始学习成本太高，我们故而转向运用已有的相关知识来辅助尽快地学习新知识。把统一的概念抽象出来，只学习不同的内容。迁移学习按照学习方式可以分为基于样本的迁移，基于特征的迁移，基于模型的迁移，以及基于关系的迁移。
微调应该是迁移学习中的一部分。微调只能说是一个trick，一种技术；迁移学习是一个更宏大的概念。
Pytorch模型保存、加载与预训练
保存和加载整个模型和参数：这种方式会保存整个模型的结构以及参数，会占用较大的磁盘空间，通常不采用这种方式

torch.save(model, 'model.pkl')  #保存
model = torch.load('model.pkl') # 加载

保存和加载模型的参数，优点是速度快，占用的磁盘空间少，是最常用的模型保存方法。load_state_dict有一个strict参数，该参数默认是True， 表示预训练模型的网络结构与自定义的网络结构严格相同（包括名字和维度）。如果自定义网络和预训练网络不严格相同时，需要将不属于自定义网络的key去掉

torch.save(model.state_dict(), 'model_state_dict.pkl')
model = model.load_state_dict(torch.load(model_state_dict.pkl))

在实际场景中，我们往往需要保存更多的信息，如优化器的参数，那么可以通过字典的方式进行存储

# 保存
torch.save({'epoch': epochId,'state_dict': model.state_dict,'best_acc': best_acc,'optimizer': optimizer.state_dict()}, checkpoint_path + "/m-" + timestamp + str("%.4f" % best_acc) + ".pth.tar")
# 加载
def load_model(model, checkpoint, optimizer):model_CKPT = torch.load(checkpoint)model.load_state_dict(model_CKPT['state_dict'])optimizer.load_state_dict(model_CKPT['optimizer'])return model, optimizer

加载部分预训练模型：如果我们修改了网络，那么就需要将这部分参数过滤掉：(值得注意的是，当两个网络的结构相同，但是结构的命名不同时，直接加载会报错。因此需要修改结构的key值)

def load_model(model, chinkpoint, optimizer):model_CKPT = torch.load(checkpoint)model_dict = model.state_dict()pretrained_dict = model_CKPT['state_dict']# 将不在model中的参数过滤掉new_dict = {k, v for k, v in pretrained_dict.items() if k in model_dict.keys()}model_dict.update(new_dict)model.load_state_dict(model_dict)# 加载优化器参数optimizer.load_state_dict(model_CKPT['optimizer'])return model, optimizer

冻结网络的部分参数，训练另一部分参数(注意，必须同时在优化器中将这些参数过滤掉，否则会报错。因为optimizer里面的参数要求required_grad为Ture)
- 当输入给模型的数据集形式相似或者相同时，常见的是利用现有的经典模型（如Residual Network、 GoogleNet等）作为backbone来提取特征，那么这些经典模型已经训练好的模型参数可以直接拿过来使用。通常情况下，我们希望将这些经典网络模型的参数固定下来，不进行训练，只训练后面我们添加的和具体任务相关的网络参数。
  - 新数据集和原始数据集合类似，那么直接可以微调一个最后的FC层或者重新指定一个新的分类器
  - 新数据集比较小和原始数据集合差异性比较大，那么可以使用从模型的中部开始训练，只对最后几层进行fine-tuning
  - 新数据集比较小和原始数据集合差异性比较大，如果上面方法还是不行的化那么最好是重新训练，只将预训练的模型作为一个新模型初始化的数据
  - 新数据集的大小一定要与原始数据集相同，比如CNN中输入的图片大小一定要相同，才不会报错
  - 对于不同的层可以设置不同的学习率，一般情况下建议，对于使用的原始数据做初始化的层设置的学习率要小于（一般可设置小于10倍）初始化的学习率，这样保证对于已经初始化的数据不会扭曲的过快，而使用初始化学习率的新层可以快速的收敛。

# 以ResNet网络为例
# 当我们加载ResNet预训练模型之后，在ResNet的基础上连接了新的网络模块， ResNet那部分网络参数先冻结不更新
# 只更新新引入网络结构的参数
class Net(torch.nn.Module):def __init__(self, model, pretrained):super(Net, self).__init__()self.resnet = model(pretained)for p in self.parameters():p.requires_grad = Falseself.conv1 = torch.nn.Conv2d(2048, 1024, 1)self.conv2 = torch.nn.Conv2d(1024, 1024, 1)

参数修改： resnet网络的最后一层对应1000个类别，如果我们自己的数据只有10个类别，那么可以进行如下修改

import torch
import torchvision.models as models
model = models.resnet50(pretrained=True)
fc_inDim = model.fc.in_features
# 修改为10个类别
model.fc = torch.nn.Linear(fc_inDim, 10)

Pytorch有很多方便易用的包，今天要谈的是torchvision包，它包括3个子包，分别是： torchvison.datasets ，torchvision.models ，torchvision.transforms ，分别是预定义好的数据集（比如MNIST、CIFAR10等）、预定义好的经典网络结构（比如AlexNet、VGG、ResNet等）和预定义好的数据增强方法（比如Resize、ToTensor等）。这些方法可以直接调用，简化我们建模的过程，也可以作为我们学习或构建新的模型的参考。

加载预训练模型，模型微调，在自己的数据集上快速出效果

针对于某个任务，自己的训练数据不多，先找到一个同类的别人训练好的模型，把别人现成的训练好了的模型拿过来，换成自己的数据，调整一下参数，再训练一遍，这就是微调（fine-tune&#xff…...

编程日记 2023/2/27 9:20:53

VScode远程连接服务器-过程试图写入的管道不存在-could not establist connection to【已解决】

问题描述使用服务器的过程中突然与服务器断连，报错如下：could not establist connection to [20:23:39.487] > ssh: connect to host 10.201.0.131 port 22: Connection timed out > [20:23:39.495] > 过程试图写入的管道不存在。 > [20…...

编程日记 2023/2/27 9:19:43

电子技术——B类输出阶

电子技术——B类输出阶下图展示了一个B类输出阶的原理图，B类输出阶由两个互补的BJT组成，不同时导通。原理当输入电压 vI0v_I 0vI0 的时候，两个晶体管都截止输出电压为零。当 vIv_IvI 上升至超过0.5V的时候，此时 QNQ_NQN…...

编程日记 2023/2/27 9:18:32

【老卫搬砖】034期：HarmonyOS 3.1 Beta 1初体验，我在本地模拟器里面刷短视频

今天啊打开这个DevEco Studio的话，已经提示有3.1Beta1版本的一个更新啊。然后看一下它的一些特性。本文也演示了如何在本地模拟器里面运行HarmonyOS版短视频。主要特性新特性包括： Added support for Windows 11 64-bit and macOS 13.x OSs, as well…...

编程日记 2023/2/27 9:17:22

Day901.内部临时表 -MySQL实战

内部临时表 Hi，我是阿昌，今天学习记录的是关于内部临时表的内容。 sort buffer、内存临时表和 join buffer。这三个数据结构都是用来存放语句执行过程中的中间数据，以辅助 SQL 语句的执行的。其中，在排序的时候用到了 sort bu…...

编程日记 2023/2/27 9:16:13

jstatd的启动方式与关闭方式

启动方式与注意事项： 启动方式： 前台启动不打印日志： jstatd -J-Djava.security.policyjstatd.all.policy -J-Djava.rmi.server.hostname服务器IP 前台启动并打印日志： ./jstatd -J-Djava.security.policyjstatd.all.policy -…...

编程日记 2023/2/27 9:15:06

_improve-3

createElement过程 React.createElement()： 根据指定的第一个参数创建一个React元素 React.createElement(type,[props],[...children] )第一个参数是必填，传入的是似HTML标签名称，eg: ul, li第二个参数是选填，表示的是属性&#…...

编程日记 2023/2/27 9:13:51

C++——异常

目录 C语言传统的处理错误的方式 C异常概念异常的使用异常的抛出和匹配原则在函数调用链中异常栈展开匹配原则自定义异常体系异常的重新抛出编辑异常安全异常规范 C标准库的异常体系异常的优缺点 C语言传统的处理错误的方式传统的错误处理机制： …...

编程日记 2023/2/27 9:12:43

MVVM 架构进阶：MVI 架构详解

前言Android开发发展到今天已经相当成熟了，各种架构大家也都耳熟能详，如MVC,MVP,MVVM等，其中MVVM更是被官方推荐，成为Android开发中的显学。不过软件开发中没有银弹，MVVM架构也不是尽善尽美的，在使用过程中…...

编程日记 2023/2/27 9:11:36

有没有必要考PMP证书？

其实针对有没有必要考试吗，这个可以根本不同行业的人来决定的。 1.高等教育项目管理专业科班出身的人员。在我国本科学历和硕士研究生学历中，项目管理也有开设。不管以后从事的工作是否为项目管理或其他管理，作为本专业的同学，…...

编程日记 2023/2/27 9:09:13

1 机器学习基础

1 机器学习概述 1.1 数据驱动的问题求解大数据-Big Data 大数据的多面性 1.2 数据分析机器学习：海量的数据，获取有用的信息专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之…...

编程日记 2023/2/27 9:08:03

java基础系列(六) sleep()和wait() 区别

一.前言关于并发编程这块, 线程的一些基础知识我们得搞明白, 本篇文章来说一下这两个方法的区别,对Android中的HandlerThread机制原理可以有更深的理解, HandlerThread源码理解,请查看笔者的这篇博客: HandlerThread源码理解_handlerthread 源码_broadview_java的博客-CSDN博…...

编程日记 2023/2/27 9:05:49

Urho3D序列化

从Serializable派生的类可以通过定义属性将其自动序列化为二进制或XML格式。属性存储到每个类的上下文中。场景加载/保存和网络复制都是通过从Serializable派生Node和Component类来实现的。支持的属性类型是Variant支持的所有属性类型，不包括指针和自定义值。属性…...

编程日记 2023/2/27 9:04:40

企业级信息系统开发学习1.3——利用注解配置取代Spring配置文件

文章目录一、利用注解配置类取代Spring配置文件（一）打开项目（二）创建新包（三）拷贝类与接口（四）创建注解配置类（五）创建测试类（六）运行…...

编程日记 2023/2/27 9:03:29

VUE DIFF算法之快速DIFF

VUE DIFF算法系列讲解 VUE 简单DIFF算法 VUE 双端DIFF算法文章目录VUE DIFF算法系列讲解前言一、快速DIFF的代码实现二、实践练习1练习2总结前言本节我们来写一下VUE3中新的DIFF算法-快速DIFF，顾名思义，也就是目前最快的DIFF算法（在VUE中&…...

编程日记 2023/2/27 9:02:20

一文掌握如何轻松稿定项目风险管理【静说】

风险管理对于每个项目经理和PMO都非常重要，如果管理不当会出现很多问题，咱们以前分享过很多风险管理的内容： 风险无处不在，一旦发生，会对一个或多个项目目标产生积极或消极影响的确定事件或条件。那么接下来介绍下五大…...

编程日记 2023/2/27 9:01:15

操作系统权限提升(十四)之绕过UAC提权-基于白名单AutoElevate绕过UAC提权

系列文章操作系统权限提升(十二)之绕过UAC提权-Windows UAC概述操作系统权限提升(十三)之绕过UAC提权-MSF和CS绕过UAC提权注：阅读本编文章前，请先阅读系列文章，以免造成看不懂的情况！！ 基于白名单AutoElevate绕过…...

编程日记 2023/2/27 9:00:03

ecology9-谷歌浏览器下-pdf.js在渲染时部分发票丢失文字问题定位及解决

问题问题描述 ： 在谷歌浏览器下，pdf.js在渲染时部分发票丢失文字；360浏览器兼容模式不存在此问题排查思路：1、对比谷歌浏览器的css样式和360浏览器兼容模式下的样式，没有发现关键差别 2、✔使用Fiddler修改网页js D…...

编程日记 2023/2/27 8:57:45

JavaScript Window Navigator

文章目录JavaScript Window NavigatorWindow Navigator警告!!!浏览器检测JavaScript Window Navigator window.navigator 对象包含有关访问者浏览器的信息。 Window Navigator window.navigator 对象在编写时可不使用 window 这个前缀。实例 <div id"example"…...

编程日记 2023/2/27 8:55:28

Linux基础命令-du查看文件的大小

文章目录 du 命令介绍语法格式基本参数参考实例 1）以人类可读形式显示指定的文件大小 2）显示当前目录下所有文件大小 3）只显示目录的大小 4）显示根下哪个目录文件最大 5）显示所有文件的大小 6&#xff0…...

编程日记 2023/2/27 8:54:20

龙虎榜——20250610

上证指数放量收阴线，个股多数下跌，盘中受消息影响大幅波动。深证指数放量收阴线形成顶分型，指数短线有调整的需求，大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技代表标的：御银股份、雄帝科技驱动…...

编程新知 2025/7/1 4:28:17

多模态2025：技术路线“神仙打架”，视频生成冲上云霄

文｜魏琳华编｜王一粟一场大会，聚集了中国多模态大模型的“半壁江山”。智源大会2025为期两天的论坛中，汇集了学界、创业公司和大厂等三方的热门选手，关于多模态的集中讨论达到了前所未有的热度。其中，…...

编程新知 2025/7/1 11:30:51

【Linux】shell脚本忽略错误继续执行

在 shell 脚本中，可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行，可以在脚本开头添加 set e 命令来取消该设置。举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令，并忽略错误 rm somefile…...

编程新知 2025/6/21 16:23:04

高等数学（下）题型笔记（八）空间解析几何与向量代数

目录 0 前言 1 向量的点乘 1.1 基本公式 1.2 例题 2 向量的叉乘 2.1 基础知识 2.2 例题 3 空间平面方程 3.1 基础知识 3.2 例题 4 空间直线方程 4.1 基础知识 4.2 例题 5 旋转曲面及其方程 5.1 基础知识 5.2 例题 6 空间曲面的法线与切平面 6.1 基础知识 6.2…...

编程新知 2025/6/26 9:18:33

import java.util.Arrays; import java.util.Scanner;public class DemoTest3 {public static void main(String[] args) {Scanner in new Scanner(System.in);// 注意 hasNext 和 hasNextLine 的区别while (in.hasNextLine()) { // 注意 while 处理多个 caseint a in.nextIn…...

编程新知 2025/6/25 14:59:03

【算法训练营Day07】字符串part1

文章目录反转字符串反转字符串II替换数字反转字符串题目链接：344. 反转字符串双指针法，两个指针的元素直接调转即可 class Solution {public void reverseString(char[] s) {int head 0;int end s.length - 1;while(head < end) {char temp …...

编程新知 2025/6/25 3:04:08

鱼香ros docker配置镜像报错：https://registry-1.docker.io/v2/

使用鱼香ros一件安装docker时的https://registry-1.docker.io/v2/问题一键安装指令 wget http://fishros.com/install -O fishros && . fishros出现问题：docker pull 失败网络不同，需要使用镜像源按照如下步骤操作 sudo vi /etc/docker/dae…...

编程新知 2025/6/16 13:40:18

前端开发面试题总结-JavaScript篇(一)

文章目录 JavaScript高频问答一、作用域与闭包1.什么是闭包（Closure）？闭包有什么应用场景和潜在问题？2.解释 JavaScript 的作用域链（Scope Chain） 二、原型与继承3.原型链是什么？如何实现继承&a…...

编程新知 2025/6/24 2:54:07

C# 求圆面积的程序（Program to find area of a circle）

给定半径r，求圆的面积。圆的面积应精确到小数点后5位。例子： 输入：r 5 输出：78.53982 解释：由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982，因为我们只保留小数点后 5 位数字。输…...

编程新知 2025/6/26 3:00:40

2025季度云服务器排行榜

在全球云服务器市场，各厂商的排名和地位并非一成不变，而是由其独特的优势、战略布局和市场适应性共同决定的。以下是根据2025年市场趋势，对主要云服务器厂商在排行榜中占据重要位置的原因和优势进行深度分析： 一、全球“三巨头”…...

编程新知 2025/6/21 21:13:58

加载预训练模型，模型微调，在自己的数据集上快速出效果

相关文章：

加载预训练模型，模型微调，在自己的数据集上快速出效果

VScode远程连接服务器-过程试图写入的管道不存在-could not establist connection to【已解决】

电子技术——B类输出阶

【老卫搬砖】034期：HarmonyOS 3.1 Beta 1初体验，我在本地模拟器里面刷短视频

Day901.内部临时表 -MySQL实战

jstatd的启动方式与关闭方式

_improve-3

C++——异常

MVVM 架构进阶：MVI 架构详解

有没有必要考PMP证书？

1 机器学习基础

java基础系列(六) sleep()和wait() 区别

Urho3D序列化

企业级信息系统开发学习1.3——利用注解配置取代Spring配置文件

VUE DIFF算法之快速DIFF

一文掌握如何轻松稿定项目风险管理【静说】

操作系统权限提升(十四)之绕过UAC提权-基于白名单AutoElevate绕过UAC提权

ecology9-谷歌浏览器下-pdf.js在渲染时部分发票丢失文字问题定位及解决

JavaScript Window Navigator

Linux基础命令-du查看文件的大小

龙虎榜——20250610

多模态2025：技术路线“神仙打架”，视频生成冲上云霄

【Linux】shell脚本忽略错误继续执行

高等数学（下）题型笔记（八）空间解析几何与向量代数

华为OD机试-食堂供餐-二分法

【算法训练营Day07】字符串part1

鱼香ros docker配置镜像报错：https://registry-1.docker.io/v2/

前端开发面试题总结-JavaScript篇(一)

C# 求圆面积的程序（Program to find area of a circle）

2025季度云服务器排行榜