当前位置：首页 > news >正文

HSN：微调预训练ViT用于目标检测和语义分割，华南理工和阿里巴巴联合提出

news 2026/2/8 9:39:24

今天跟大家分享华南理工大学和阿里巴巴联合提出的将ViT模型用于下游任务的高效微调方法HSN，该方法在迁移学习、目标检测、实例分割、语义分割等多个下游任务中表现优秀，性能接近甚至在某些任务上超越全参数微调。

论文标题：Hierarchical Side Tuning for Vision Transformers
机构：华南理工大学、阿里巴巴
论文地址：https://arxiv.org/pdf/2310.05393.pdf
代码地址（即将开源）：https://github.com/AFeng-x/HST#hierarchical-side-tuning-for-vision-transformers
关键词：Vision Transformer、迁移学习、目标检测、实例分割、语义分割

1.动机

近年来，大规模的Vision Transformer（简称ViT）在多个任务中表现优秀，很多研究人员尝试利用ViT中的预训练知识提升下游任务的性能。然而，快速增长的模型规模使得在开发下游任务时直接微调预训练模型变得不切实际。 Parameter-efficient transfer learning（简称PETL）方法通过选择预训练模型的参数子集或在主干中引入有限数量的可学习参数，同时保持大部分原始参数不变，来解决该问题。

尽管PETL方法取得了重大成功，但主要是为识别任务而设计的。当将其用于密集预测任务时（比如目标检测和分割），与完全的微调相比其性能仍有很大的差距，这可能是由于密集预测任务与分类任务有本质上的不同。为了解决这一性能差距，作者提出了一种更通用的PETL方法Hierarchical Side-Tuning（简称HST），作者构建了Hierarchical Side Network（简称HSN），能产生金字塔式的多尺度输出，使得整个模型能适应不同的任务。

2.Hierarchical Side-Tuning（HST）

2.1 HST总体结构

HST的总体结构如下图所示：

上图中蓝色部分为普通的ViT，其权重被冻结；绿色部分为Adaptive Feature Bridge（简称AFB），用于桥接和预处理中间特征；粉色部分是Hierarchical Side Network（简称HSN），由1个Conv Stem和 $L$ 个Side Block组成。

对于ViT部分，输入图像首先通过patch embedding，然后进入 $L$ 个Transformer encoder；对于HSN部分，输入图像通过Conv Stem，从输入图像中引入局部空间上下文信息。HSN由4个stage组成，下采样率分别为 ${4,8,16,32\}$ ，输出4种不同尺度的特征。每个Transformer encoder都有1个对应的Side Block，信息流从backbone流向Side Block。

2.2 Meta Token

与其他prompt-based的微调方法不同，作者令prompt的数量为1，并将其称作Meta Token（简称MetaT），其结构如下图所示：

作者并没有丢弃prompt对应的输出特征，而是将其与输出的patch token一起作为Adaptive Feature Bridge的输入。由于MetaT的输出特征分布与patch token的分布有差异，这会影响HSN的性能，因此要微调Transformer中的Layer Normalization（简称LN）层，以改变特征的均值和方差（即改变了特征分布），有助于保持同一样本中不同特征之间的相对值。下图展示了MetaT的输出特征与ViT中patch token之间的余弦相似度，显然，通过微调LN层，MetaT的输出与patch token的向量方向能更好地对齐，从而有效地利用MetaT的输出特征。

2.3 Adaptive Feature Bridge（AFB）

由于ViT的输出特征与HSN中的特征形状不同，因此引入了Adaptive Feature Bridge（AFB），AFB包括2个重要部分：双分支分离（Dual-Branch Separation）和权重共享（Linear Weight Sharing），如下图所示：

Dual-Branch Separation

MetaT的输出和patch token先经过线性层进行维度变换，线性层的输出分为2个分支，patch token进行全局平均池化输出1个token，将其称作GlobalT，GlobalT与MetaT拼接得到 $\mathcal{F}_{m g}^i$ 。通过双线性差值改变patch token的形状，使其与HSN中对应stage的特征形状一致。整体流程表示如下：

$\mathcal{F}_{m g}^i=\left[W_j \mathcal{F}_{\text {MetaT }}^i, \operatorname{AvgPooling}\left(W_j \mathcal{F}_{\text {patch }}^i\right)\right] ; \mathcal{F}_{f g}^i=\mathcal{T}\left(W_j \mathcal{F}_{v i t}^i\right)$

上式中 $i$ 表示第 $i$ 个Vit block， $W_j$ 表示第 $j$ 个stage中线性层的权重矩阵。

Linear Weight Sharing

同一个stage中的多个AFB共享线性层权重，以减少可学习参数；此外，这样能在同一个stage中实现特征间的信息交互，达到与使用多个线性层相当的效果。

2.4 Side Block

Side Block包含1个cross-attention层和1个Feed-Forward Network（简称FFN），其结构如下图所示。

Side Block对ViT的中间特征和多尺度特征进行建模，考虑到这两个输入分支的特点，作者通过不同的方法将它们引入到Side Block中。

Meta-Global Injection

将HSN输出的多尺度特征作为Query（记作 $Q$ ），使用meta-global token作为key（记作 $K$ ）和value（记作 $V$ ），cross-attention表示如下：

$\left(\left(Q_{h s n}\right)\left(K_{m g}\right)^T\right) V_{m g}=A V_{m g}$

上式中 $Q_{h s n} \in \mathbb{R}^{L \times d}$ ， $\left(K_{m g}\right)^T \in \mathbb{R}^{d \times M}$ ， $V_{m g} \in \mathbb{R}^{M \times d}$ ， $L$ 表示多尺度特征输入序列的长度， $M$ 表示meta-global token的长度， $d$ 表示特征维度。

将Meta-Global Injection的输出记作 $\hat{F}_{h s n}^i$ ，可表示如下：

$\hat{\mathcal{F}}_{h s n}^i=\mathcal{F}_{h s n}^i+\operatorname{CrossAttention}\left(\mathcal{F}_{h s n}^i, \mathcal{F}_{m g}^i\right)$

上式中 $i$ 表示HST和ViT的第 $i$ 个block。

Fine-Grained Injection

将Meta-Global Injection的输出 $\hat{F}_{h s n}^i$ 与 $F_{f g}^i$ 进行元素相加，然后使用FFN进行建模，表示如下：

$F_{h s n}^{i+1}=\hat{F}_{h s n}^i+F_{f g}^i+\operatorname{FFN}\left(\hat{F}_{h s n}^i+F_{f g}^i\right)$

$F_{h s n}^{i+1}$ 作为下一个Side Block的输入。

3.实验

3.1 实验设置

3.2 实验结果

（1）图像分类

（2）目标检测和实例分割

（3）语义分割

更多消融实验及分析请查看原文。

4.总结

作者提出了一种新的参数高效的迁移学习方法Hierarchical Side-Tuning（HST），可训练的side network利用了backbone的中间特征，并生成了用于进行预测的多尺度特性。通过实验表明，HST在不同的数据集和任务中表现优异，显著地减少了在密集预测任务中PETL与完全微调的性能差距。

HSN：微调预训练ViT用于目标检测和语义分割，华南理工和阿里巴巴联合提出

今天跟大家分享华南理工大学和阿里巴巴联合提出的将ViT模型用于下游任务的高效微调方法HSN，该方法在迁移学习、目标检测、实例分割、语义分割等多个下游任务中表现优秀，性能接近甚至在某些任务上超越全参数微调。论文标题：Hierarchical Side…...

编程日记 2023/10/15 23:09:00

机器学习的原理是什么？

训过小狗没? 没训过的话总见过吧? 你要能理解怎么训狗，就能非常轻易的理解机器学习的原理. 比如你想教小狗学习动作“坐下”一开始小狗根本不知道你在说什么。但是如果你每次都说坐下”然后帮助它坐下，并给它一块小零食作为奖励，经过多次…...

编程日记 2023/10/15 23:07:59

Java集合框架之ArrayList源码分析

文章目录简介ArrayList底层数据结构初始化集合操作追加元素插入数据删除数据修改数据查找扩容操作总结简介 ArrayList是Java提供的线性集合，本篇笔记将从源码(java SE 17)的角度学习ArrayList： 什么是ArrayList？ArrayList底层数据结构是…...

编程日记 2023/10/15 23:06:57

TensorFlow入门(二十、损失函数)

损失函数损失函数用真实值与预测值的距离指导模型的收敛方向,是网络学习质量的关键。不管是什么样的网络结构,如果使用的损失函数不正确,最终训练出的模型一定是不正确的。常见的两类损失函数为:①均值平方差②交叉熵均值平方差均值平方差(Mean Squared Error,MSE),也称&qu…...

编程日记 2023/10/15 23:04:48

MySQL中死锁

数据库的死锁是指不同的事务在获取资源时相互等待，导致无法继续执行的一种情况。当发生死锁时，数据库会自动中断其中一个事务，以解除死锁。在数据库中，事务可以分为读事务和写事务。读事务只需要获取读锁，而写事务需要…...

编程日记 2023/10/15 23:03:46

【LeetCode刷题（数据结构）】：给定一个链表每个节点包含一个额外增加的随机指针该指针可以指向链表中的任何节点或空节点要求返回这个链表的深度拷贝

给你一个长度为 n 的链表，每个节点包含一个额外增加的随机指针 random ，该指针可以指向链表中的任何节点或空节点构造这个链表的深拷贝。深拷贝应该正好由 n 个全新节点组成，其中每个新节点的值都设为其对应的原节点的值。新节点的 next…...

编程日记 2023/10/15 23:01:44

uniapp封装loading 的动画动态加载

实现效果 html代码 <view class"loadBox" v-if"loading"><img :src"logo" class"logo"> </view> css代码 .loadBox {width: 180rpx;min-height: 180rpx;border-radius: 50%;display: flex;align-items: center;j…...

编程日记 2023/10/15 23:00:43

Kopler.gl笔记：可视化功能总览

1 添加数据 2 添加图层打开“数据层”菜单，开始可视化。层（Layers）简单来说就是可以相互叠加的数据可视化。 3 添加过滤器在地图上添加过滤器以限制显示的数据。过滤器必须基于数据集中的列。要创建新的过滤器，打开“过滤器…...

编程日记 2023/10/15 22:59:40

rust学习Cell、RefCell、OnceCell

背景 Rust 内存安全基于以下规则：给定一个对象 T，它只能具有以下之一：对对象有多个不可变引用 (&T)（也称为别名 aliasing）对对象有一个可变引用 (&mut T)（也称为可变性 mutability）这是由 Rust 编译器强制执行的。然而，在某些情况下，该规则不够灵活（this r…...

编程日记 2023/10/15 22:58:39

基于SSM的摄影约拍系统

基于SSM的摄影约拍系统的设计与实现开发语言：Java数据库：MySQL技术：SpringSpringMVCMyBatisJSP工具：IDEA/Ecilpse、Navicat、Maven 【主要功能】前台系统：首页拍摄作品展示、摄影师展示、模特展示、文章信息、交流论…...

编程日记 2023/10/15 22:56:37

分析智能平台VMware Greenplum 7 正式发布！

📢📢📢📣📣📣 哈喽！大家好，我是【IT邦德】，江湖人称jeames007，10余年DBA及大数据工作经验一位上进心十足的【大数据领域博主】！😜&am…...

编程日记 2023/10/15 22:55:35

动态规划算法（3）--0-1背包、石子合并、数字三角形

目录一、0-1背包 1、概述 2、暴力枚举法 3、动态规划二、石子合并问题 1、概述 2、动态规划 3、环形石子怎么办？ 三、数字三角形问题 1、概述 2、递归 3、线性规划四、租用游艇问题一、0-1背包 1、概述 0-1背包：给定多种物品和一个固定…...

编程日记 2023/10/15 22:54:33

Linux C/C++ 嗅探数据包并显示流量统计信息

嗅探数据包并显示流量统计信息是网络分析中的一种重要技术，常用于网络故障诊断、网络安全监控等方面。具体来说，嗅探器是一种可以捕获网络上传输的数据包，并将其展示给分析人员的软件工具。在嗅探器中，使用pcap库是一种常见的方法…...

编程日记 2023/10/15 22:53:31

Vitis导入自制IP导致无法构建Platform

怎么还有这种问题（ 解决Vitis导入自制IP导致无法构建Platform – TaterLi 个人博客 Vitis报错：fatal error: xxx.h: No such file or directory._ly2lj的博客-CSDN博客在指定位置黏入以上代码即可： INCLUDEFILES$(wildcard *.h) LIBSOUR…...

编程日记 2023/10/15 22:52:30

SQLAlchemy 使用封装实例

类封装 database.py #! /usr/bin/env python # -*- coding: utf-8 -*-import sys import json import logging from datetime import datetimefrom core.utils import classlock, parse_bool from core.config import (MYSQL_HOST,MYSQL_PORT,MYSQL_USER,MYSQL_PASS,MYSQL_DA…...

编程日记 2023/10/15 22:51:28