Inception Transformer
paper链接: https://arxiv.org/abs/2205.12956v2
code链接: https://github.com/sail-sg/iFormer
Inception Transformer
- 一、引言
- 二、实现细节
- 三、实验
- 一、分类
- 二、检测
- 三、分割
- 四、消融实验
一、引言
最近的研究表明,Transformer具有很强的建立远程依赖关系的能力,但在捕获高频信息时却表现不佳。为了解决这个问题,本文提出了一种新颖的通用Inception Transformer(简称iF),它可以有效地学习视觉数据中高频和低频信息的综合特征。具体地说,将卷积和最大池化的优点移植到Transformer上,以捕获高频信息。与最近的混合框架不同,Inception混频器通过通道分裂机制,采用并行卷积/最大池化路径和自注意路径作为高频和低频混频器,带来了更高的效率,同时具有对分散在宽频率范围内的判别信息建模的灵活性。考虑到底层更多地用于捕获高频细节,而顶层更多地用于建模低频全局信息,进一步引入了频率斜坡结构,即逐渐减少给高频混频器的维数,增加低频混频器的维数,可以有效地权衡不同层之间的高低频分量。
ViT及其变体对视觉数据中的低频捕获能力很强,主要包括场景或对象的全局形状和结构,但对高频学习能力不强,主要包括局部边缘和纹理。这可以直观地解释为:vit中用于在非重叠补丁令牌之间交换信息的主要操作self attention是一个全局操作,并且更能够捕获全局信息(低频)。下图1(a)和1(b)所示,傅里叶频谱和相对对数振幅表明,ViT倾向于很好地捕获低频信号,而很少捕获高频信号。这种低频偏好降低了ViTs的性能,主要表现在:(1)在所有层中填充低频信息会导致高频成分(如局部纹理)的劣化,削弱了ViTs的建模能力;2)高频信息也具有鉴别性,可以使许多任务受益,例如(细粒度)分类。实际上,人类视觉系统以不同的频率提取视觉基本特征低频提供视觉刺激的全局信息,高频传达图像的局部空间变化(如局部边缘/纹理)。因此,有必要开发一种新的ViT体系结构来捕获视觉数据中的高频和低频。
CNN是一般视觉任务最基本的骨干。与ViTs不同,它通过感受野内的局部卷积覆盖更多的局部信息,从而有效地提取高频特征。最近的研究考虑到CNN和ViTs的优势互补,将二者进行了整合。有些方法将卷积层和注意层按串行方式堆叠,将局部信息注入全局上下文。不幸的是,这种串行方式只在一层中对一种类型的依赖项建模,要么是全局的,要么是局部的,并且在局部建模期间丢弃全局信息,反之亦然。其他工作采用并行注意力和卷积同时学习输入的全局和局部依赖关系。但是,部分通道用于处理局部信息,另一部分用于全局建模,这意味着当前的并行结构如果处理每个分支中的所有通道,则具有信息冗余。
为了解决这个问题,作者提出了一个简单有效的Inception Transformer (iFormer),如下图所示,它将CNN捕获高频的优点嫁接到vit上。
iFormer的关键组件是一个Inception令牌混合器,如下图所示。这种Inception混频器旨在通过捕获数据中的高频和低频来增强vit在频谱中的感知能力。为此,Inception混频器首先将输入特征沿通道维度进行分割,然后将分割后的分量分别送入高频混频器和低频混频器。
这里的高频混频器由最大池化操作和并行卷积操作组成,而低频混频器由ViTs中的自注意实现。这样,iFormer可以有效地捕获相应通道上的特定频率信息,从而在较宽的频率范围内获得更全面的特征。
此外,较低的层通常需要更多的局部信息,而较高的层需要更多的全局信息。这是因为,就像人类的视觉系统一样,高频分量中的细节有助于底层捕捉视觉的基本特征,也有助于逐步收集局部信息,从而对输入有一个全局的理解。受此启发,设计了一个频率斜坡结构。特别是,从低到高,逐步向低频混频器提供更多的通道维度。
二、实现细节
与串行方法相比,文献中将注意力与卷积并行结合的作品并不多。CoaT和ViTAE引入卷积作为平行于注意的分支,并利用elementwise sum对两个分支的输出进行合并。然而,Raghu等人发现,一些通道倾向于提取局部依赖关系,而其他通道则用于建模全局信息,这表明当前并行机制处理不同分支中的所有通道具有冗余性。相反,将通道分成高频和低频的分支。GLiT也采用并行方式,但直接将卷积和注意分支的特征拼接成混频器输出,缺少不同频率特征的融合。相反,本文设计了一个显式的融合模块来合并来自低频和高频分支的输出。
提出的Inception混合器,将CNN提取高频表示的强大能力嫁接到Transformer上。之所以使用“Inception”这个名字,是因为令牌混合器受到具有多个分支的Inception模块[的启发。Inception混频器没有直接将图像令牌送入MSA混频器,而是先将输入特征沿通道维度进行分割,然后将分割后的分量分别送入高频混频器和低频混频器。其中高频混频器由最大池化操作和并行卷积操作组成,而低频混频器由自注意实现。
给定输入特征映射X∈RN×CX∈R^{N×C}X∈RN×C,将X沿通道维度分解为Xh∈RN×ChX_h∈R^{N×C_h}Xh∈RN×Ch和Xl∈RN×ClX_l∈R^{N×C_l}Xl∈RN×Cl,其中Ch+Cl=cC_h + C_l = cCh+Cl=c,将X_h和X_l分别分配给高频混频器和低频混频器。
高频混合器:考虑到最大滤波器的敏锐灵敏度和卷积运算的细节感知,提出了一种并行结构来学习高频成分。沿通道将输入XhX_hXh分为Xh1∈RN×Ch2X_{h1}∈R^{N× \frac{C_h}{2}}Xh1∈RN×2Ch和Xh2∈RN×Ch2X_{h2}∈R^{N× \frac{C_h}{2}}Xh2∈RN×2Ch。如下所示,Xh1X_{h1}Xh1嵌入max-pooling层和线性层,Xh2X_{h2}Xh2馈送到线性层和深度卷积层。
最后,将低频和高频混频器的输出沿通道维度进行拼接:
上采样操作选择每个位置的最近点的值,而不考虑任何其他点,这导致相邻符号之间过度平滑。作者设计了一个融合模块来克服这个问题,即在补丁之间交换信息的深度卷积,同时保持跨通道线性层,像以前的Transformer一样在每个位置工作。最终输出可以表示为:
像普通的Transformer一样,iFormer配备了前馈网络(FFN),不同的是,它还包含了上面的Inception令牌混合器(ITM);在ITM和FFN之前应用LayerNorm (LN)。因此,Inception Transformer块的正式定义为:
低频混频器。使用多头自注意在低频混频器的所有令牌之间进行信息通信。尽管特征图具有较强的全局表示学习能力,但较大的分辨率会给底层带来较大的计算成本。因此,简单地使用平均池化层来降低注意力操作前XlX_lXl的空间尺度,使用上采样层来恢复注意力操作后的原始空间维度。这种设计极大地降低了计算开销,使注意力操作集中在全局信息的嵌入上。这个分支可以定义为:
请注意,池化层和上采样层的内核大小和步幅仅在前两个阶段设置为2。
如下图所示,主干有四个不同通道和空间维度的阶段。对于每个块,定义了一个通道比,以更好地平衡高频和低频成分,即ChC\frac{C_h}{C}CCh和ClC\frac{C_l}{C}CCl,其中ChC+ClC=1\frac{C_h}{C}+\frac{C_l}{C}=1CCh+CCl=1。在频率斜坡结构中,ChC\frac{C_h}{C}CCh从浅层到深层逐渐减小,ClC\frac{C_l}{C}CCl,逐渐增大。因此,通过灵活的频率斜坡结构,iFormer可以有效地权衡各层的高频和低频分量。
不同iFormer模型的配置如下:
三、实验
一、分类
二、检测
三、分割
四、消融实验
相关文章:

Inception Transformer
paper链接: https://arxiv.org/abs/2205.12956v2 code链接: https://github.com/sail-sg/iFormer Inception Transformer一、引言二、实现细节三、实验一、分类二、检测三、分割四、消融实验一、引言 最近的研究表明,Transformer具有很强的建立远程依赖关系的能力…...

10分钟学会数据库压力测试,你敢信?
目录 前言 查看数据库版本 下载驱动: 菜单路径 配置 Variable Name Bound to Pool模块配置 Connection pool configuration模块配置 Database Connection Configuration模块配置 菜单路径 Variable Name Bound to Pool 脚本结构 脚本(执行查询…...

论文阅读 | Video Super-Resolution Transformer
引言:2021年用Transformer实现视频超分VSR的文章,改进了SA并在FFN中加入了光流引导 论文:【here】 代码:【here】 Video Super-Resolution Transformer 引言 视频超分中有一组待超分的图片,因此视频超分也经常被看做…...
7-6 带头节点的双向循环链表操作
本题目要求读入一系列整数,依次插入到双向循环链表的头部和尾部,然后顺序和逆序输出链表。 链表节点类型可以定义为 typedef int DataType; typedef struct LinkedNode{DataType data;struct LinkedNode *prev;struct LinkedNode *next; }LinkedNode;链…...
npm publish 、 npm adduser 提示 403 的问题
0. 查看使用的源:npm config get registry1. 如果使用的不是官方的源,切换:npm config set registry https://registry.npmjs.org/2. 登录:npm adduser3. 查看是否登录成功:npm whoami4. 执行发布命令:npm …...
Java 8的函数式接口使用示例
什么是函数式接口 有且只有一个抽象方法的接口被称为函数式接口,函数式接口适用于函数式编程的场景,Lambda就是Java中函数式编程的体现,可以使用Lambda表达式创建一个函数式接口的对象,一定要确保接口中有且只有一个抽象方法&…...

2023年企业如何改善员工体验?为什么员工体验很重要?
什么是员工体验?大约 96% 的企业领导者表示,专注于员工体验可以更轻松地留住顶尖人才。[1] 这还不是全部。令人震惊的是,87%的企业领导者还表示,优先考虑员工的幸福感将给他们带来竞争优势。尽管有这些发现,但只有19%的…...

设计模式:桥接模式让抽象和实现解耦,各自独立变化
一、问题场景 现在对”不同手机类型“的 “不同品牌”实现操作编程(比如: 开机、关机、上网,打电话等) 二、传统解决方案 传统方案解决手机使用问题类图: 三、传统方案分析 传统方案解决手机操作问题分析 1、扩展性问题(类爆炸),如果我们…...

C++学习记录——십 STL初级认识、标准库string类
文章目录1、什么是STL2、STL简介3、什么是string类4、string类的常用接口说明1、常见构造函数2、容量操作3、迭代器4、其他的标准库的string类关于string类的内容,可以在cplusplus.com查看到。 1、什么是STL STL是C标准库的重要组成部分,不仅是一个可复…...

【redis】redis缓存与数据库的一致性
【redis】redis缓存与数据库的一致性【1】四种同步策略【2】更新缓存还是删除缓存(1)更新缓存(2)删除缓存【3】先更新数据库还是先删除缓存(1)出现失败时候的情况1-先删除缓存,再更新数据库&…...

XCP实战系列介绍12-基于Vector_Davinci工具的XCP配置介绍(一)
本文框架 1.概述2. EcuC配置2.1 Pdu添加步骤2.2 配置项说明3. Can 模块配置4. CanIf 模块配置4.1 接收帧的Hardware Receive Object配置4.2 接收帧和发送帧的Pdu配置1.概述 在文章《看了就会的XCP协议介绍》中详细介绍了XCP的协议,在《XCP实战系列介绍01-测量与标定底层逻辑》…...

Unity Material详解
一、创建 二、属性 1.Shader:Unity内置了一些shader,用户自定义的shader也在这里出现. Edit: 可以编辑一些shader可编辑的内容,如一些属性. 2.Rendering Mode:渲染模式 Opaque-不透明-石头适用于所有的不透明的物体Cutout-镂空-破布透明度只有0%和100…...

碰撞检测算法分类
包围形法粗糙检测, 包含以下两种类检测外接圆法轴对齐包围矩形, AABB 碰撞检测算法之包围形法分离轴精细检测 BOX vs PolygonOBBseparating Axis Theorem碰撞检测算法之分离轴定理GJKGJK(Gilbert–Johnson–Keerthi), 相比 SAT 算法ÿ…...
代码随想录第十二天(
文章目录232. 用栈实现队列补充知识——Deque232. 用栈实现队列 答案思路: 在push数据的时候,只要数据放进输入栈就好,但在pop的时候,操作就复杂一些,输出栈如果为空,就把进栈数据全部导入进来࿰…...

电源模块 DC-DC直流升压正负高压输出12v24v转±110V±150V±220V±250V±300V±600V
特点效率高达80%以上1*2英寸标准封装电源正负双输出稳压输出工作温度: -40℃~85℃阻燃封装,满足UL94-V0 要求温度特性好可直接焊在PCB 上应用HRA 1~40W系列模块电源是一种DC-DC升压变换器。该模块电源的输入电压分为:4.5~9V、9~18V、及18~36VDC标准&…...

【动画图解】这个值取对了,ViewPager2才能纵享丝滑
前言 在前两篇文章中,我们通过一张张清晰明了的「示意图」,详细地复盘了RecyclerView「缓存复用机制」与「预拉取机制」的工作流程,这种「图解」创作形式也得到了来自不同平台读者们的一致认可。 而从本文开始,我们将正式进入Vi…...

CSDN每日一练:小豚鼠搬家
题目名称:小豚鼠搬家 时间限制:1000ms内存限制:256M 题目描述 小豚鼠排排坐。 小艺酱买了一排排格子的小房子n*m,她想让k只小豚鼠每只小豚鼠都有自己的房子。 但是为了不浪费空间,她想要小房子的最外圈尽量每行每列都有…...
Dockerfile命令及实践构建一个网站
dockerfile用于构建docker镜像的,部署一个用于运行你所需的容器环境。相当一个脚本,通过dockerfile自己的指令,来构建软件依赖、文件依赖、存储、定制docker镜像的方式有两种:手动修改容器内容,导出新的镜像基于Docker…...

[VMware]Ubuntu18.04 网络图标消失
Ubuntu 18.04 网络图标消失运行环境问题解决NO.1 执行 sudo systemctl stop network-managerNO.2 执行 sudo rm /var/lib/NetworkManager/NetworkManager.stateNO.3 执行 sudo systemctl start network-managerNO.4 vi /etc/NetworkManager/NetworkManager.confNO.5 执行 sudo …...
国产C2000,P2P替代TMS320F280049C,独立双核32位CPU,主频高达400MHz
一、特性参数 1、独立双核,32位CPU,单核主频400MHz 2、IEEE 754 单精度浮点单元 (FPU) 3、三角函数单元 (TMU) 4、1MB 的 FLASH (ECC保护) 5、1MB 的 SRAM (ECC保护&…...
web vue 项目 Docker化部署
Web 项目 Docker 化部署详细教程 目录 Web 项目 Docker 化部署概述Dockerfile 详解 构建阶段生产阶段 构建和运行 Docker 镜像 1. Web 项目 Docker 化部署概述 Docker 化部署的主要步骤分为以下几个阶段: 构建阶段(Build Stage):…...

深入浅出Asp.Net Core MVC应用开发系列-AspNetCore中的日志记录
ASP.NET Core 是一个跨平台的开源框架,用于在 Windows、macOS 或 Linux 上生成基于云的新式 Web 应用。 ASP.NET Core 中的日志记录 .NET 通过 ILogger API 支持高性能结构化日志记录,以帮助监视应用程序行为和诊断问题。 可以通过配置不同的记录提供程…...

04-初识css
一、css样式引入 1.1.内部样式 <div style"width: 100px;"></div>1.2.外部样式 1.2.1.外部样式1 <style>.aa {width: 100px;} </style> <div class"aa"></div>1.2.2.外部样式2 <!-- rel内表面引入的是style样…...
拉力测试cuda pytorch 把 4070显卡拉满
import torch import timedef stress_test_gpu(matrix_size16384, duration300):"""对GPU进行压力测试,通过持续的矩阵乘法来最大化GPU利用率参数:matrix_size: 矩阵维度大小,增大可提高计算复杂度duration: 测试持续时间(秒&…...
Unit 1 深度强化学习简介
Deep RL Course ——Unit 1 Introduction 从理论和实践层面深入学习深度强化学习。学会使用知名的深度强化学习库,例如 Stable Baselines3、RL Baselines3 Zoo、Sample Factory 和 CleanRL。在独特的环境中训练智能体,比如 SnowballFight、Huggy the Do…...
3403. 从盒子中找出字典序最大的字符串 I
3403. 从盒子中找出字典序最大的字符串 I 题目链接:3403. 从盒子中找出字典序最大的字符串 I 代码如下: class Solution { public:string answerString(string word, int numFriends) {if (numFriends 1) {return word;}string res;for (int i 0;i &…...

pikachu靶场通关笔记22-1 SQL注入05-1-insert注入(报错法)
目录 一、SQL注入 二、insert注入 三、报错型注入 四、updatexml函数 五、源码审计 六、insert渗透实战 1、渗透准备 2、获取数据库名database 3、获取表名table 4、获取列名column 5、获取字段 本系列为通过《pikachu靶场通关笔记》的SQL注入关卡(共10关࿰…...

优选算法第十二讲:队列 + 宽搜 优先级队列
优选算法第十二讲:队列 宽搜 && 优先级队列 1.N叉树的层序遍历2.二叉树的锯齿型层序遍历3.二叉树最大宽度4.在每个树行中找最大值5.优先级队列 -- 最后一块石头的重量6.数据流中的第K大元素7.前K个高频单词8.数据流的中位数 1.N叉树的层序遍历 2.二叉树的锯…...

Linux --进程控制
本文从以下五个方面来初步认识进程控制: 目录 进程创建 进程终止 进程等待 进程替换 模拟实现一个微型shell 进程创建 在Linux系统中我们可以在一个进程使用系统调用fork()来创建子进程,创建出来的进程就是子进程,原来的进程为父进程。…...
Spring是如何解决Bean的循环依赖:三级缓存机制
1、什么是 Bean 的循环依赖 在 Spring框架中,Bean 的循环依赖是指多个 Bean 之间互相持有对方引用,形成闭环依赖关系的现象。 多个 Bean 的依赖关系构成环形链路,例如: 双向依赖:Bean A 依赖 Bean B,同时 Bean B 也依赖 Bean A(A↔B)。链条循环: Bean A → Bean…...