当前位置：首页 > news >正文

知识蒸馏中有哪些经验| 目标检测 |mobile-yolov5-pruning-distillation项目中剪枝知识分析

news 2025/7/3 10:29:48

项目地址：https://github.com/Syencil/mobile-yolov5-pruning-distillation
项目时间：2022年
mobile-yolov5-pruning-distillation是一个以yolov5改进为主的开源项目，主要包含3中改进方向：更改backbone、模型剪枝、知识蒸馏。这里主要研究其知识蒸馏部分，根据其分享的实验数据，获取对目标检测中模型剪枝的认知。希望阅读本博文的读者，能给项目一个satr。
在这里插入图片描述
该项目中关于知识蒸馏首先介绍了基本分类情况，关于实验主要是分享了三种蒸馏策略下的模型效果。

蒸馏是希望将T模型学习到的知识迁移到S模型中。通常蒸馏方式大体可以分为：1）Response-based，2）Feature-based，3）Relation-based。

按照策略则可以分为1）online distillation，2）offline distillation 和3）self distillation

按照蒸馏算法可以分为1）adversarial distillation，2）multi-teacher distillation， 3）cross-modal distillation，4）graph-based distillation，5）attention-based distillation，6）data-free distillation，7）quatized Distillation，8）lifelong distillation， 9）nas distillation。

mobile-yolov5-pruning-distillation项目将采用多种不同的蒸馏方式尝试对mobilev2-yolo5s提点，每一种Strategy都对应有相关论文。并不是每一种方式都有效，可能和组合方式以及参数调节都有关。

在这里插入图片描述

1、Strategy 1 Output-based Distillation

以mobilev2-yolo5s作为S-model，希望能将T-model在coco和voc上学习到的知识蒸馏到mobilev2-yolo5s中。以Object detection at 200 Frames Per Second为基础方法配置蒸馏损失函数，抑制背景框带来的类别不均衡问题。用L2 loss作为蒸馏基础函数，损失中的蒸馏dist平衡系数选择为1。

选取基于darknet为backbone的yolo5s作为T模型。这样能尽可能的保证结构上的一致。而yolo5s的参数量和计算量差不多正好是mobilev2-yolo5s的两倍， capacity gap并不是很明显。蒸馏后提了接近3个点。

这里所表明2点信息：
1、参考Object detection at 200 Frames Per Second抑制背景框蒸馏，可以提示3个点的map 2、在教师模型与学生模型间gap过大，会影响蒸馏效果，反而不如gap低的低精度教师模型效果好

在这里插入图片描述

2、Strategy 2 Feature-based+Output-based Distillation

Strategy 1仅仅只是蒸馏最后一个输出层，属于distillation中Response-Based。考虑到特征提取也是可以进行蒸馏的，提升backbone在特征提取上的表征能力。对于T和S特征图之间维度存在不匹配的情况，我们首先应用一个Converter网络将通道数转换成相同的这个思想在FitNet上就提出过，实际操作中更类似于如下
在这里插入图片描述
实验效果一 尝试将特征图和输出层一起作为蒸馏指导。对于T和S中间特征图输出维度不匹配的问题，采用在S网络输出接一个Converter，将其升维到T网络匹配。 Converter由conv+bn+relu6组成，T网络输出单独接一个relu6，保证激活函数相同。 output层参数为1.0，feature参数为0.5。mAP0.663甚至比baseline都要低。蒸馏效果如下所示
在这里插入图片描述
feature distillation居然让模型掉点了，怀疑是feature权重太大。loss与map日志如下：
1、loss降到0.1667，mAP可以提升到0.68，还是低于baseline。
2、继续下降到0.05，mAP可以回到baseline的水平，
3、在训练末期mAP还在上升，loss还在下降。最后尝试训练100个epoch，mAP才回到74。

实际上还尝试过各种变形和各种参数，但是感觉效果仍然不好。这表明进行feature distillation对于目标检测而言很大概率是一个负优化

3、Strategy 3 Teach-Assistant Distillation

在Strategy 1.2的实验中可以看出，T越强力蒸馏的S提升并不一定更多，反而更低。类似的实验在TADK也有。用yolov5l作为T网络提升不高的原因可能有2点。1）T更复杂，S没有足够的capacity来模仿T，2）T的精度更高，模型确定性更强，输出logits（soft label）变得less soft。但是我想让更大的yolov5l作为指导网络，那么可以利用yolov5s作为助教网络辅助蒸馏。

将yolov5l作为T网络，yolov5s作为TA网络（这里T和TA之间其实差距也是非常大的，7倍差距），mobilev2-yolo5s作为S网络。

首先对TA蒸馏，提升yolov5s在voc上的mAP。
其次利用TA对S蒸馏。

不过从TA的精度来看，由于T和TA存在显著的能力gap，蒸馏出的TA并没有精度上，故没有进行第二步蒸馏。
在这里插入图片描述

5、同类型蒸馏模型精度

基于项目作者分享的信息，可以发现所得到的模型效果还是较为可观的。
在这里插入图片描述

执行不同蒸馏策略的代码如下
在这里插入图片描述

知识蒸馏中有哪些经验| 目标检测 |mobile-yolov5-pruning-distillation项目中剪枝知识分析

1、Strategy 1 Output-based Distillation

2、Strategy 2 Feature-based+Output-based Distillation

3、Strategy 3 Teach-Assistant Distillation

5、同类型蒸馏模型精度

相关文章：

知识蒸馏中有哪些经验| 目标检测 |mobile-yolov5-pruning-distillation项目中剪枝知识分析

Oracle 19c RAC单节点停机维护硬件

Linux系统进程

机载视频流回传+编解码方案

Ubuntu 20.04 Server版连接Wifi

【VRChat 改模】开发环境搭建：VCC、VRChat SDK、Unity 等环境配置

人工智能的微积分基础

Android 基础类（01）- Thread类 - readyToRun和threadLoop

C++设计模式之构造器

红日靶场-5

做异端中的异端 -- Emacs裸奔之路3: 上古神键Hyper

Java多线程介绍及使用指南

HarmonyOS 5.0应用开发——列表（List）

自动化电气行业的优势和劣势是什么

第 42 章 - Go语言设计模式

【机器学习】---大语言模型

挑战用React封装100个组件【002】

MarkDown-插入图片-图片url地址的生成获取方法

插值、拟合和回归分析的相关知识

【小白学机器学习42】进行多次抽样，样本的分布参数和总体的分布参数的关系

Android Wi-Fi 连接失败日志分析

Qt/C++开发监控GB28181系统/取流协议/同时支持udp/tcp被动/tcp主动

华为云Flexus+DeepSeek征文｜DeepSeek-V3/R1 商用服务开通全流程与本地部署搭建

聊一聊接口测试的意义有哪些？

企业如何增强终端安全？

JavaScript基础-API 和 Web API

从 GreenPlum 到镜舟数据库：杭银消费金融湖仓一体转型实践

人工智能--安全大模型训练计划：基于Fine-tuning + LLM Agent

6个月Python学习计划 Day 16 - 面向对象编程（OOP）基础

企业大模型服务合规指南：深度解析备案与登记制度