当前位置：首页 > news >正文

Straightforward Layer-wise Pruning for More Efficient Visual Adaptation

news 2025/7/6 5:10:54

对于模型中冗余的参数，一个常见的方法是通过结构化剪枝方法减少参数容量。例如，基于幅度值和基于梯度的剪枝方法。尽管这些方法在传统训练上通用性，本文关注的PETL迁移有两个不可避免的问题：

显著增加了模型存储负担。由于不同的下游数据，剪枝方法设置的剪枝率不同，导致不同数据集的不同网络结构，这导致这些不同结构大的存储空间。
模型精度的损失。剪枝冗余参数从网络中的预训练参数，这不与下游数据集直接相关。可训练参数需要适应剪枝的新结构，实验中表明这阻碍了模型精度恢复。

本文方法

这里首先介绍广泛使用的维度约简算法，t-SNE和聚类算法标准，轮廓系数索引（silhouette coefficient index）。给定d维度的输入特征集合 $X=\{x_{1},x_{2},\ldots,x_{n}\}$ ，t-SNE计算s维度嵌入集合，定义为 $Y={y_{1},y_{2},\ldots,y_{n}$，满足 $s\ll d$ 。t-SNE计算 $x_{i}$ 与 $x_{j}$ 之间相似度的公式为以下的联合概率 $p_{ij}=\frac{p_{i|j}+p_{j|i}}{2n}$
其中

$p_{i|j}=\frac{\exp(-||x_{i}-x_{j}||^{2}/2\sigma_{i}^{2})}{\sum_{k\neq i}\exp(-||x_{i}-x_{k}||^{2}/2\sigma_{i}^{2})}$

基于上述 $X$ 和 $Y$ 的联合分布 $P$ 和 $Q$ ，t-SNE通过梯度下降优化 $P$ 和 $Q$ 之间KL散度。

轮廓系数索引

给定聚类结果集合 $X=\{x_{1},x_{2},\ldots,x_{n}\}$ ，对于每一点 $x_{i}$ ，定义 $a_{i}$ 是在这疑惧类剩下点和 $x_{i}$ 平均距离。 $b (i)$ 是在最近聚类的所有点到 $x_{i}$ 平均距离。定义轮廓系数索引为

$\bar{s}=\frac{1}{n}\sum_{i=1}^{n}\frac{b(i)-a(i)}{\max(a(i,b(i)}$

基于特征视角的逐层剪枝

先前研究已经显示较低的层捕捉一般特征，较高的层关注于特定特征。基于此理解和PETL冻结预训练网络参数的限制，本文提出了一个假设：当存在下游数据分布和预训练数据分布显著差异时，由PETL迁移的较深的层将包含大量的冗余参数。本文目标是动态识别并剪枝这些冗余参数。后续关键评价指标需要满足：

维持PETL迁移模型相同存储参数数量
不需要额外训练预测冗余参数

不增加存储参数数量

考虑一个PETL迁移的N层ViT模型，定义每层预训练参数为 $W_{P}^{i}$ ，定义每层新引入的参数为 $W_{A}^{i,j}$ ，头参数为 $W_{H}^{j}$ ，由SLS预测的剪枝层索引为 $Index_{j}$ 。对于层级别的剪枝方法，在K个下游数据集的存储的参数量 $S$ 为
$S=\sum_{j=1}^{K}\sum_{i=1}^{Index_{j}}(W_{P}^{i}+W_{A}^{i,j})+\sum_{j=1}^{K}W_{H}^{j}$
显然剪枝层数量不会超过网络层的范围。

$S\leq \sum_{j=1}^{K}\sum_{i=1}^{N}(W_{P}^{i}+W_{A}^{i,j})+\sum_{j=1}^{K}W_{H}^{j}=K\sum_{i=1}^{N}W_{P}^{i}+\sum_{j=1}^{N}\sum_{i=1}^{N}W_{A}^{i,j}+\sum_{j=1}^{K}W_{H}^{j}$
对于存储的参数，每一层的参数 $W_{P}^{i}$ 是可以再次使用的，因此满足：
$S\leq \sum_{i=1}^{N}W_{P}^{i}+\sum_{j=1}^{N}\sum_{i=1}^{N}W_{A}^{i,j}+\sum_{j=1}^{K}W_{H}^{j}$

基于从每层的中间特征做剪枝决策

本文提出使用约简维度特征的聚类度评估层特征。该方法没有引入额外的监督训练。

给定输入 $X$ ，ViT模型将其通过补丁嵌入曾嵌入d维度潜在空间获得 $e_{0}$ 。 $e_{0}$ 与CLS令牌连接作为模型输入。ViT模型backbone前向过程可以描述为：
$x_{i},e_{i}]=L_{i}([x_{i-1},e_{i-1}])$

本文提出特征评估模块（FEM）评估从层 $L_{i}$ 的特征。FEM从层 $KaTeX parse error: Expected '}', got 'EOF' at end of input: L_{i]$ 的输出获得CLS令牌 $x_{i}$ 表示当前特征。之后使用t-SNE算法约简 $x_{i}$ 为 $x_{i}^{\prime}$ 。通过结合当前输入的标签，获得 $p$ 类别的聚类结果。之后获得对应 $C$ 的 $a (i)$ ， $b (i)$ ，最后是当前层的特征评估 $SC\_index_{i}$ 。

对于N层的模型，定义 $\alpha$ 是控制SLS剪枝度的超参数。在当前数据集的对于剪枝层的阈值 $T$ 定义为：

$T=\alpha\times SC\_Index_{N}$

在模型剪枝过程中，从最高层往下。当第i层特征的评估 $SC\_Index_{i}$ 小于T，停止遍历并剪枝从i+2到N的层。核心思想是当第 i层评估与最终层特征评估差距小于一个特定阈值，分类头不再能有效区分当前特征。

Straightforward Layer-wise Pruning for More Efficient Visual Adaptation

本文方法

基于特征视角的逐层剪枝

相关文章：

Straightforward Layer-wise Pruning for More Efficient Visual Adaptation

喜讯 | 创邻科技杭州电子科技大学联合实验室揭牌成立！

海外媒体发稿：如何打造媒体发稿策略

PyTorch模型保存与加载

CH569开发前的测试

MySQL中表的外连接和内连接

Ubuntu 上安装 Redmine 5.1 指南

从变量的角度理解 Hooks , 变得更简单了

LabVIEW Modbus通讯稳定性提升

(8) cuda分析工具

C语言 | Leetcode C语言题解之第517题超级洗衣机

Java多线程编程基础

刷代随有感(134):单调栈——下一个更大元素I（难点涉及哈希表与单调栈的结合)

Linux云计算 |【第五阶段】CLOUD-DAY5

被上传文件于后端的命名策略

哈希表算法专题

unity3d————[HideInInspector]

Soanrquber集成Gitlab 之导入Gitlab项目

论区块链技术及应用

GPT避坑指南：如何辨别逆向、AZ、OpenAI官转

接口测试中缓存处理策略

Java 8 Stream API 入门到实践详解

vscode（仍待补充）

蓝牙 BLE 扫描面试题大全(2)：进阶面试题与实战演练

家政维修平台实战20：权限设计

Java多线程实现之Callable接口深度解析

【HarmonyOS 5 开发速记】如何获取用户信息（头像/昵称/手机号）

Linux --进程控制

【分享】推荐一些办公小工具

免费数学几何作图web平台