当前位置：首页 > news >正文

ConvNeXt V2实战：使用ConvNeXt V2实现图像分类任务（一）

news 2026/2/8 12:57:00

文章目录

摘要
安装包
- 安装timm
- 安装 grad-cam
数据增强Cutout和Mixup
EMA
项目结构
计算mean和std
生成数据集
关于不上分的问题

摘要

论文：https://arxiv.org/pdf/2301.00808.pdf
论文翻译：https://wanghao.blog.csdn.net/article/details/128541957
官方源码： https://github.com/facebookresearch/ConvNeXt-V2
当前的主干网络几乎是Transformers的时代，ConvNeXt为数不多的的高性能CNN网络，V1版本就证明了其强大的存在，在V2版本中，作者提出了一个全卷积掩码自编码器框架和一个新的全局响应归一化(GRN)层，添加到ConvNeXt架构中，以增强通道间的特征竞争。作者将这种自监督学习技术和架构改进的共同设计命名为ConvNeXt V2，它显著提高了纯卷积在各种识别基准上的性能，包括ImageNet分类、COCO检测和ADE20K分割。在ImageNet上取得了88.9%的精度。

在这里插入图片描述

这篇文章主要讲解如何使用ConvNeXt V2完成图像分类任务，接下来我们一起完成项目的实战。本例选用的模型是convnextv2_base,在植物幼苗数据集上实现了96
%的准确率。

请添加图片描述

通过这篇文章能让你学到：

如何使用数据增强，包括transforms的增强、CutOut、MixUp、CutMix等增强手段？
如何实现ConvNeXt V2模型实现训练？
如何使用pytorch自带混合精度？
如何使用梯度裁剪防止梯度爆炸？
如何使用DP多显卡训练？
如何绘制loss和acc曲线？
如何生成val的测评报告？
如何编写测试脚本测试测试集？
如何使用余弦退火策略调整学习率？
如何使用AverageMeter类统计ACC和loss等自定义变量？
如何理解和统计ACC1和ACC5？
如何使用EMA？
如果使用Grad-CAM 实现热力图可视化？

如果基础薄弱，对上面的这些功能难以理解可以看我的专栏：经典主干网络精讲与实战
这个专栏，从零开始时，一步一步的讲解这些，让大家更容易接受。

安装包

安装timm

使用pip就行，命令：

pip install timm

本文实战用的timm里面的模型。

安装 grad-cam

pip install grad-cam

数据增强Cutout和Mixup

为了提高成绩我在代码中加入Cutout和Mixup这两种增强方式。实现这两种增强需要安装torchtoolbox。安装命令：

pip install torchtoolbox

Cutout实现，在transforms中。

from torchtoolbox.transform import Cutout
# 数据预处理
transform = transforms.Compose([transforms.Resize((224, 224)),Cutout(),transforms.ToTensor(),transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])])

需要导入包：from timm.data.mixup import Mixup，

定义Mixup，和SoftTargetCrossEntropy

  mixup_fn = Mixup(mixup_alpha=0.8, cutmix_alpha=1.0, cutmix_minmax=None,prob=0.1, switch_prob=0.5, mode='batch',label_smoothing=0.1, num_classes=12)criterion_train = SoftTargetCrossEntropy()

参数详解：

mixup_alpha (float): mixup alpha 值，如果 > 0，则 mixup 处于活动状态。

cutmix_alpha (float)：cutmix alpha 值，如果 > 0，cutmix 处于活动状态。

cutmix_minmax (List[float])：cutmix 最小/最大图像比率，cutmix 处于活动状态，如果不是 None，则使用这个 vs alpha。

如果设置了 cutmix_minmax 则cutmix_alpha 默认为1.0

prob (float): 每批次或元素应用 mixup 或 cutmix 的概率。

switch_prob (float): 当两者都处于活动状态时切换cutmix 和mixup 的概率。

mode (str): 如何应用 mixup/cutmix 参数（每个’batch’，‘pair’（元素对），‘elem’（元素）。

correct_lam (bool): 当 cutmix bbox 被图像边框剪裁时应用。 lambda 校正

label_smoothing (float)：将标签平滑应用于混合目标张量。

num_classes (int): 目标的类数。

EMA

EMA（Exponential Moving Average）是指数移动平均值。在深度学习中的做法是保存历史的一份参数，在一定训练阶段后，拿历史的参数给目前学习的参数做一次平滑。具体实现如下：


import logging
from collections import OrderedDict
from copy import deepcopy
import torch
import torch.nn as nn_logger = logging.getLogger(__name__)class ModelEma:def __init__(self, model, decay=0.9999, device='', resume=''):# make a copy of the model for accumulating moving average of weightsself.ema = deepcopy(model)self.ema.eval()self.decay = decayself.device = device  # perform ema on different device from model if setif device:self.ema.to(device=device)self.ema_has_module = hasattr(self.ema, 'module')if resume:self._load_checkpoint(resume)for p in self.ema.parameters():p.requires_grad_(False)def _load_checkpoint(self, checkpoint_path):checkpoint = torch.load(checkpoint_path, map_location='cpu')assert isinstance(checkpoint, dict)if 'state_dict_ema' in checkpoint:new_state_dict = OrderedDict()for k, v in checkpoint['state_dict_ema'].items():# ema model may have been wrapped by DataParallel, and need module prefixif self.ema_has_module:name = 'module.' + k if not k.startswith('module') else kelse:name = knew_state_dict[name] = vself.ema.load_state_dict(new_state_dict)_logger.info("Loaded state_dict_ema")else:_logger.warning("Failed to find state_dict_ema, starting from loaded model weights")def update(self, model):# correct a mismatch in state dict keysneeds_module = hasattr(model, 'module') and not self.ema_has_modulewith torch.no_grad():msd = model.state_dict()for k, ema_v in self.ema.state_dict().items():if needs_module:k = 'module.' + kmodel_v = msd[k].detach()if self.device:model_v = model_v.to(device=self.device)ema_v.copy_(ema_v * self.decay + (1. - self.decay) * model_v)

加入到模型中。

#初始化
if use_ema:model_ema = ModelEma(model_ft,decay=model_ema_decay,device='cpu',resume=resume)# 训练过程中，更新完参数后，同步update shadow weights
def train():optimizer.step()if model_ema is not None:model_ema.update(model)# 将model_ema传入验证函数中
val(model_ema.ema, DEVICE, test_loader)

针对没有预训练的模型，容易出现EMA不上分的情况，这点大家要注意啊！

项目结构

ConvNeXtV2_Demo
├─data1
│  ├─Black-grass
│  ├─Charlock
│  ├─Cleavers
│  ├─Common Chickweed
│  ├─Common wheat
│  ├─Fat Hen
│  ├─Loose Silky-bent
│  ├─Maize
│  ├─Scentless Mayweed
│  ├─Shepherds Purse
│  ├─Small-flowered Cranesbill
│  └─Sugar beet
├─models
│  ├─convnextv2.py
│  └─utils.py
├─mean_std.py
├─makedata.py
├─train.py
├─cam_image.py
└─test.py

models：来源官方代码，对面的代码做了一些适应性修改。
mean_std.py：计算mean和std的值。
makedata.py：生成数据集。
ema.py：EMA脚本
train.py:训练PoolFormer模型
cam_image.py：热力图可视化

为了能在DP方式中使用混合精度，还需要在模型的forward函数前增加@autocast()，如果使用GPU训练导入包from torch.cuda.amp import autocast，如果使用CPU，则导入from torch.cpu.amp import autocast。
在这里插入图片描述

计算mean和std

为了使模型更加快速的收敛，我们需要计算出mean和std的值，新建mean_std.py,插入代码：

from torchvision.datasets import ImageFolder
import torch
from torchvision import transformsdef get_mean_and_std(train_data):train_loader = torch.utils.data.DataLoader(train_data, batch_size=1, shuffle=False, num_workers=0,pin_memory=True)mean = torch.zeros(3)std = torch.zeros(3)for X, _ in train_loader:for d in range(3):mean[d] += X[:, d, :, :].mean()std[d] += X[:, d, :, :].std()mean.div_(len(train_data))std.div_(len(train_data))return list(mean.numpy()), list(std.numpy())if __name__ == '__main__':train_dataset = ImageFolder(root=r'data1', transform=transforms.ToTensor())print(get_mean_and_std(train_dataset))

数据集结构：

运行结果：

([0.3281186, 0.28937867, 0.20702125], [0.09407319, 0.09732835, 0.106712654])

把这个结果记录下来，后面要用！

生成数据集

我们整理还的图像分类的数据集结构是这样的

data
├─Black-grass
├─Charlock
├─Cleavers
├─Common Chickweed
├─Common wheat
├─Fat Hen
├─Loose Silky-bent
├─Maize
├─Scentless Mayweed
├─Shepherds Purse
├─Small-flowered Cranesbill
└─Sugar beet

pytorch和keras默认加载方式是ImageNet数据集格式，格式是

├─data
│  ├─val
│  │   ├─Black-grass
│  │   ├─Charlock
│  │   ├─Cleavers
│  │   ├─Common Chickweed
│  │   ├─Common wheat
│  │   ├─Fat Hen
│  │   ├─Loose Silky-bent
│  │   ├─Maize
│  │   ├─Scentless Mayweed
│  │   ├─Shepherds Purse
│  │   ├─Small-flowered Cranesbill
│  │   └─Sugar beet
│  └─train
│      ├─Black-grass
│      ├─Charlock
│      ├─Cleavers
│      ├─Common Chickweed
│      ├─Common wheat
│      ├─Fat Hen
│      ├─Loose Silky-bent
│      ├─Maize
│      ├─Scentless Mayweed
│      ├─Shepherds Purse
│      ├─Small-flowered Cranesbill
│      └─Sugar beet

新增格式转化脚本makedata.py,插入代码：

import glob
import os
import shutilimage_list=glob.glob('data1/*/*.png')
print(image_list)
file_dir='data'
if os.path.exists(file_dir):print('true')#os.rmdir(file_dir)shutil.rmtree(file_dir)#删除再建立os.makedirs(file_dir)
else:os.makedirs(file_dir)from sklearn.model_selection import train_test_split
trainval_files, val_files = train_test_split(image_list, test_size=0.3, random_state=42)
train_dir='train'
val_dir='val'
train_root=os.path.join(file_dir,train_dir)
val_root=os.path.join(file_dir,val_dir)
for file in trainval_files:file_class=file.replace("\\","/").split('/')[-2]file_name=file.replace("\\","/").split('/')[-1]file_class=os.path.join(train_root,file_class)if not os.path.isdir(file_class):os.makedirs(file_class)shutil.copy(file, file_class + '/' + file_name)for file in val_files:file_class=file.replace("\\","/").split('/')[-2]file_name=file.replace("\\","/").split('/')[-1]file_class=os.path.join(val_root,file_class)if not os.path.isdir(file_class):os.makedirs(file_class)shutil.copy(file, file_class + '/' + file_name)

完成上面的内容就可以开启训练和测试了。

关于不上分的问题

经过多次训练，我发现了一个玄学的问题：有时候莫名其妙的不上分，为了防止大家出现这种情况后，不知道如何去调试，我做个说明。
1、查看ema是否开启，如果开启了，先把它关掉。训练几个epoch后再开启，加载模型继续训练。
2、改变seed的值，这个就非常玄学了，设置一个自己的幸运数字。

ConvNeXt V2实战：使用ConvNeXt V2实现图像分类任务（一）

文章目录摘要安装包安装timm安装 grad-cam数据增强Cutout和MixupEMA项目结构计算mean和std生成数据集关于不上分的问题摘要论文：https://arxiv.org/pdf/2301.00808.pdf 论文翻译：https://wanghao.blog.csdn.net/article/details/128541957 官方源码&am…...

编程日记 2023/3/2 23:11:03

3.2 报错整理

报错1： 报错：RuntimeError: DataLoader worker (pid 93789) is killed by signal: Killed.原因：显存不够报错2： 报错：TqdmWarning: IProgress not found. Please update jupyter and ipywidgets.解决：pip i…...

编程日记 2023/3/2 23:09:59

从0开始学python -46

Python CGI编程什么是CGI CGI 目前由NCSA维护，NCSA定义CGI如下： CGI(Common Gateway Interface),通用网关接口,它是一段程序,运行在服务器上如：HTTP服务器，提供同客户端HTML页面的接口。网页浏览为了更好的了解CGI是如何工作…...

编程日记 2023/3/2 23:08:52

JavaScript事件委托机制详解

一、什么是事件委托机制事件委托机制就是：我们给元素添加click事件时不在该元素上添加，而是委托给某个公共的祖辈元素，告诉祖辈元素如果接收到了click事件，并且这个click事件是由该元素触发的，就执行祖辈元素上委托绑…...

编程日记 2023/3/2 23:07:46

【项目实战】MySQL中union和union all的相同点与不同点

一、union和union all的相同点在MySQL中，Union和Union All都是用来合并两个或者多个查询结果集的关键字二、union和union all的不同点 union复杂，union all简单 2.1 自动压缩，自动求并集、去重、排序操作 （1）unio…...

编程日记 2023/3/2 23:06:40

ChatGPT最牛应用，让它帮你更新网站新闻吧！

谁能想到，ChatGPT火了！既能对话入流，又能写诗歌论文、出面试题、编代码，甚至还通过了谷歌面试拿到L3工程师offer，放在一年之前，没人相信这是当前AI能够达到的水平。ChatGPT自面世以来，凭借其极为…...

编程日记 2023/3/2 23:05:34

乌班图安装kvm并配置网络

乌班图22安装KVM 1.安装KVM sudo apt install qemu-kvm libvirt-daemon-system libvirt-clients bridge-utils virt-manager virtinstsudo adduser id -un libvirt sudo adduser id -un kvm sudo apt install virtinst qemu-efi sudo systemctl enable --now libvirtd sudo s…...

编程日记 2023/3/2 23:04:28

蓝库云｜ERP系统在企业数字化转型中最常用的八大功能

ERP系统和与企业数字化转型随着数字化发展的兴起，规划和管理已成为企业产生富有成效的成果的关键。许多企业采用了企业资源规划 (ERP) 等先进工具，使企业所有者能够以高效的方式规划和管理其资源和运营。 ERP系统负责整合业务的不同流程并向决策者提供…...

编程日记 2023/3/2 23:03:23

Pytorch学习笔记#1：拟合函数/梯度下降

学习自https://pytorch.org/tutorials/beginner/pytorch_with_examples.html 概念 Pytorch Tensor在概念上和Numpy的array一样是一个nnn维向量的。不过Tensor可以在GPU中进行计算，且可以跟踪计算图（computational graph）和梯度（…...

编程日记 2023/3/2 23:02:14

挑战图像处理100问（24）——伽玛校正

伽马校正（Gamma Correction）是一种图像处理技术，用于校正显示设备的非线性响应。通过对图像进行伽马变换，可以将图像的亮度范围映射到显示设备的亮度范围内，从而提高图像的对比度和细节，改善图像的视觉效果…...

编程日记 2023/3/2 23:01:10

高级信息系统项目管理师（高项）软考论文评分标准（附历年高项论文题目汇总）

1、如果您想了解如何高分通过高级信息系统项目管理师（高项）你可以点击一下链接： 高级信息系统项目管理师（高项）高分通过经验分享_高项经验 2、如果您想了解更多的高级信息系统项目管理(高项软考)原创论文&#xff0…...

编程日记 2023/3/2 23:00:04

MySQL实战记录篇2

事务？ 1、事务的特性：原子性、一致性、隔离性、持久性 （ACID） 2、多事务同时执行的时候，可能会出现的问题：脏读、不可重复读、幻读 3、事务隔离级别：读未提交、读提交、可重复读、串行化 4、不…...

编程日记 2023/3/2 22:58:58

C++实现AVL树

目录一、搜索二叉树 1.1 搜索二叉树概念二、模拟实现二叉搜索树 2.1 框架 2.2 构造函数 2.2.1 构造函数 2.2.2 拷贝构造 2.2.3 赋值拷贝 2.3 插入函数 2.3.1 insert() 2.3.2 RcInsert() 递归实现 2.4 删除结点函数 2.4.1 Erase() 2.4.2 RcErase() 2.5 中序遍历…...

编程日记 2023/3/2 22:57:51

高并发语言erlang编程初步

初步下载安装与初步使用下载并安装，然后开始菜单中有对应的图标，打开就能进入erlang的命令行。当然也可以将其安装路径的bin文件夹加入环境变量，然后就可以在命令行中输入erl进入erlang了。在erlang语言中，语句结束需要用.标…...

编程日记 2023/3/2 22:56:42

springboot 问题记录

部署到Tomcat中的时候，找不到需要部署的项目； project facets severt-name severt-class安装lombok.jar eclipse添加lombok插件后闪退打不开Clean 项目，project clean clean的作用检查插件部署项目Springboot修改端口号：applica…...

编程日记 2023/3/2 22:55:36

【PAT甲级题解记录】1034 Head of a Gang (30 分)

【PAT甲级题解记录】1034 Head of a Gang (30 分) 前言 Problem：1034 Head of a Gang (30 分) Tags：图的遍历连通分量统计 DFS Difficulty：剧情模式想流点汗想流点血死而无憾 Address：1034 Head of a Gang (30 分) 问题描述 …...

编程日记 2023/3/2 22:54:29

Python搭建一个steam钓鱼网站，只要免费领游戏，一钓一个准

前言嗨喽~大家好呀，这里是魔王呐 ❤ ~! 我们日常上网的时候，总是会碰到一些盗号的网站，或者是别人发一些链接给你， 里面的内容是一些可以免费购物网站的优惠券、游戏官网上可以免费领取皮肤、打折的游戏。这些盗号网站统一的目…...

编程日记 2023/3/2 22:53:24

maven 私服nexus安装与使用

一、下载nexus Sonatype公司的一款maven私服产品 1、官网下载地址：https://help.sonatype.com/repomanager3/product-information/download 2、csdn下载地址：https://download.csdn.net/download/u010197591/87522994 二、安装与配置 1、下载后解压如…...

编程日记 2023/3/2 22:52:17

详解数据结构中的顺序表的手动实现，顺序表功能接口【数据结构】

文章目录线性表顺序表接口实现尾插尾删头插头删指定位置插入指定位置删除练习线性表线性表（linear list）是n个具有相同特性的数据元素的有限序列。线性表是一种在实际中广泛使用的数据结构，常见的线性表：顺序表、链表、栈、队列…...

编程日记 2023/3/2 22:51:11

【二】kubernetes操作

k8s卸载重置名词解释 1、Namespace：名称用来隔离资源，不隔离网络创建名称空间一、命名空间namesapce 方式一：命令行创建 kubectl create ns hello删除名称空间 kubectl delete ns hello查询指定的名称空间 kubectl get pod -n kube-s…...

编程日记 2023/3/2 22:50:07

对WWDC 2025 Keynote 内容的预测

借助我们以往对苹果公司发展路径的深入研究经验，以及大语言模型的分析能力，我们系统梳理了多年来苹果 WWDC 主题演讲的规律。在 WWDC 2025 即将揭幕之际，我们让 ChatGPT 对今年的 Keynote 内容进行了一个初步预测，聊作存档。等到明…...

编程新知 2026/2/6 23:56:39

相机Camera日志分析之三十一：高通Camx HAL十种流程基础分析关键字汇总（后续持续更新中）

【关注我，后续持续新增专题博文，谢谢！！！】上一篇我们讲了：有对最普通的场景进行各个日志注释讲解，但相机场景太多，日志差异也巨大。后面将展示各种场景下的日志。通过notepad++打开场景下的日志，通过下列分类关键字搜索，即可清晰的分析不同场景的相机运行流程差异…...

编程新知 2025/11/20 7:13:43

HashMap中的put方法执行流程（流程图）

1 put操作整体流程 HashMap 的 put 操作是其最核心的功能之一。在 JDK 1.8 及以后版本中，其主要逻辑封装在 putVal 这个内部方法中。整个过程大致如下： 初始判断与哈希计算： 首先，putVal 方法会检查当前的 table（也就…...

编程新知 2026/2/8 3:32:52

VM虚拟机网络配置（ubuntu24桥接模式）：配置静态IP

编辑-虚拟网络编辑器-更改设置选择桥接模式，然后找到相应的网卡（可以查看自己本机的网络连接） windows连接的网络点击查看属性编辑虚拟机设置更改网络配置，选择刚才配置的桥接模式静态ip设置： 我用的ubuntu24桌…...

编程新知 2026/2/6 0:01:52

【Redis】笔记｜第8节｜大厂高并发缓存架构实战与优化

缓存架构代码结构代码详情功能点： 多级缓存，先查本地缓存，再查Redis，最后才查数据库热点数据重建逻辑使用分布式锁，二次查询更新缓存采用读写锁提升性能采用Redis的发布订阅机制通知所有实例更新本地缓存适用读多…...

编程新知 2026/1/26 3:45:28

JavaScript 数据类型详解

JavaScript 数据类型详解 JavaScript 数据类型分为原始类型（Primitive） 和对象类型（Object） 两大类，共 8 种（ES11）： 一、原始类型（7种） 1. undefined 定…...

编程新知 2025/12/25 4:05:41

免费数学几何作图web平台

光锐软件免费数学工具，maths,数学制图，数学作图，几何作图，几何，AR开发,AR教育,增强现实,软件公司,XR,MR,VR,虚拟仿真,虚拟现实,混合现实,教育科技产品,职业模拟培训,高保真VR场景,结构互动课件,元宇宙http://xaglare.c…...

编程新知 2026/1/28 7:31:14

省略号和可变参数模板

本文主要介绍如何展开可变参数的参数包 1.C语言的va_list展开可变参数 #include <iostream> #include <cstdarg>void printNumbers(int count, ...) {// 声明va_list类型的变量va_list args;// 使用va_start将可变参数写入变量argsva_start(args, count);for (in…...

编程新知 2025/11/21 0:25:40