当前位置: 首页 > news >正文

DETR++: Taming Your Multi-Scale Detection Transformer论文解读

文章目录

  • 前言
  • 一、摘要
  • 二、引言
  • 三、相关研究
  • 四、模型方法
    • 1、Removing the Encoder方法
    • 2、Multi-Head方法
    • 3、Shifted Windows方法
    • 4、Bi-directional Feature Pyramid方法
    • 5、DETR++方法
  • 五、实验结果
  • 总结


前言

今天查看了一篇DETR++论文,本想网络上找博客大概浏览一下,不料网上对DETR++资料较少。无奈,我只有自己查看原文,了解其方法。为此,本篇博客将介绍DETR++论文内容,也希望我的解读会快速让朋友们了解其论文方法。


论文链接:https://arxiv.org/pdf/2206.02977v1.pdf

一、摘要

自从AlexNet在图像分类网络出现,目标检测使用CNN结构已占主导地位。随着transformer在自然邻域广泛使用,Carmethod引入DETR来处理目标检测。然而,由于self-attention存在平方计算复杂都,DETR不能狗处理多尺度特征交互,导致小目标检测效果较差。为了克服这个问题和进一步改善DETR性能。在这篇研究中,我们研究了多尺度特征交互的不同方法,并发现BIFPN在DETR中最有效,并提升检测性能。介于此发现,我们提出DETR++模型,一个新架构,改善检测结果。我们在coco2017测试提升了1.9%的AP,RICO icon测试11.5%的AP,我们提升了9.1%AP。

在这里插入图片描述

二、引言

列举众所周知基于CNN的检测模型方法,有anchors、grid、pointcetres等模式,也被cocohuopascal数据证明了有效性,当然后处理也是影响性能部分。而后作者介绍了DERT相关原理与框架。紧接着,作者提出DETR弊端,就是slow,其原因在于一个self-attention机制,特别对于视觉特征需sapn over thousands of token(简单说就是维度拉大了),另一个原因二分匹配也是耗时的。提到若是在增加多尺度特征到DETR中,就存在更大调整。因此,本文研究多个multi-level features方式加入DETR架构去改善性能,而不导致self-attention的二次方复杂度与二分匹配。作者又说了其困难,①在资源和时间限制下运行多层特征头几乎是不可能的,②transformer的encoder结构在解码detector模块是非常重要的额,也是不可能去除的,③使用滑动窗口思路是不work的,④dert头对不同目标尺度改善效果也不佳,⑤BIFPN结构嵌入DETR是有效果的,且不增加计算复杂度。

三、相关研究

作者介绍了基于CNN的模型,随后介绍多尺度特征文献回顾,解释使用多尺度特征如FPN确实改善小目标检测,并列举了一些模型。紧接着,作者说了,由于DETR计算的复杂度,原始模型不容易合并多尺度特征。这导致缺乏多尺度特征,是模型在小目标效果表现不佳。

四、模型方法

本文方式实际是介绍使用不同模块,重在neck中实现多尺度特征融合方式,探究原始DETR改进效果。最终作者选择BIFPN方法嵌入DETR,发现其效果最好。当然,我额外说下,作者说了DETR因其自身原因,添加多尺度特征模块嵌入于DETR是比较困难的,这个可能需要结合代码查看。当然,我在下面会给出作者原文对每个方法原文,读者可自行查看。

1、Removing the Encoder方法

在这里插入图片描述

2、Multi-Head方法

在这里插入图片描述

3、Shifted Windows方法

在这里插入图片描述

4、Bi-directional Feature Pyramid方法

在这里插入图片描述

5、DETR++方法

在这里插入图片描述

五、实验结果

作者实验也是基于coco2017数据集,上面是使用不同模块预测结果,下面是其它网络预测结果。但你会发现某些模块添加DETR模型效果会差,如stack方法的AP是37.3而DETR是39.9,反而降低了。具体详情如下:
在这里插入图片描述


总结

DETR++论文核心是想实现类似FPN的多尺度特征融合技术,尝试了很多种方法,最终使用BIFPN靠谱。与此同时,DETR++模型也解决transformer的attention引起slow问题,并找到如何将多尺度特征嵌入DETR模型方法(作者说嵌入DETR本身困难)。

相关文章:

DETR++: Taming Your Multi-Scale Detection Transformer论文解读

文章目录 前言一、摘要二、引言三、相关研究四、模型方法1、Removing the Encoder方法2、Multi-Head方法3、Shifted Windows方法4、Bi-directional Feature Pyramid方法5、DETR方法 五、实验结果总结 前言 今天查看了一篇DETR论文,本想网络上找博客大概浏览一下&am…...

高级数据结构 <二叉搜索树>

本文已收录至《数据结构(C/C语言)》专栏! 作者:ARMCSKGT 目录 前言正文二叉搜索树的概念二叉搜索树的基本功能实现二叉搜索树的基本框架插入节点删除节点查找函数中序遍历函数析构函数和销毁函数(后序遍历销毁)拷贝构造和赋值重载(前序遍历创建)其他函数…...

蚂蚁集团5大开源项目获开放原子 “2023快速成长开源项目”

12月16日,在开放原子开源基金会主办的“2023开放原子开发者大会”上,蚂蚁集团主导开源的图数据库TuGraph、时序数据库CeresDB、隐私计算框架隐语SecretFlow、前端框架OpenSumi、数据域大模型开源框架DB-GPT入选“2023快速成长开源项目”。 (图…...

SpringBoot+JaywayJsonPath实现Json数据的DSL(按照指定节点表达式解析json获取指定数据)

场景 若依前后端分离版手把手教你本地搭建环境并运行项目: 若依前后端分离版手把手教你本地搭建环境并运行项目_前后端分离项目本地运行-CSDN博客 在上面搭建SpringBoot项目的基础上,并且在项目中引入fastjson、hutool等所需依赖后。 Jayway JsonPat…...

气压计LPS28DFW开发(2)----水压检测

气压计LPS28DFW开发.2--水压检测 概述视频教学样品申请完整代码下载水压计算设置速率和分辨率轮询读取数据测试结果 概述 本文将介绍如何使用 LPS28DFW 传感器来读取的压强数据,来估算水下深度,可以利用液体静压的原理。 最近在弄ST和瑞萨RA的课程&…...

设计模式之-装饰模式,快速掌握装饰模式,通俗易懂的讲解装饰模式以及它的使用场景

系列文章目录 设计模式之-6大设计原则简单易懂的理解以及它们的适用场景和代码示列 设计模式之-单列设计模式,5种单例设计模式使用场景以及它们的优缺点 设计模式之-3种常见的工厂模式简单工厂模式、工厂方法模式和抽象工厂模式,每一种模式的概念、使用…...

计算机网络个人小结

不同层的数据报的名称 应用层: data TCP层: segment IP 层: packet MAC层: frame MTU vs MSS: MTU:一个网络包的最大长度,以太网中一般为 1500 字节。 https://www.xiaolincoding.com/network/1_base/how_os_deal_network_package.html#linux-%E7%BD%91…...

酒店网站搭建的作用是什么

线上已经成为各行业商家增长破局的必要手段,传统酒店行业因信息扩展度不够,导致品牌难以传播、无法实现用户对酒店所有信息全面知悉,也无法实现在线预约及其它赋能用户消费的路径。 面对获客转化难题,很多酒店商家通过建立自营商…...

俄罗斯联邦税务局遭乌克兰入侵,数据库和副本被清空,政府数据安全不容忽视

俄罗斯联邦税务局遭乌克兰入侵,数据库和副本被清空,政府数据安全不容忽视 据相关报道,2023年12月12日,乌克兰国防情报局(GUR)称其成功入侵了俄罗斯联邦税务局(FNS)系统,并清除了该机构的数据库和…...

WPF组合控件TreeView+DataGrid之TreeView封装

(关注博主后,在“粉丝专栏”,可免费阅读此文) wpf的功能非常强大,很多控件都是原生的,但是要使用TreeViewDataGrid的组合,就需要我们自己去封装实现。 我们需要的效果如图所示&#x…...

redisson 哨兵模式配置

背景&#xff1a;项目redis由集群改为哨兵模式&#xff0c;漏洞扫描未授权访问漏洞&#xff08;CNVD-2019-21763&#xff09;&#xff0c;要求对redis哨兵也设置密码&#xff0c;redisson依赖版本为3.11.5 spring-boot版本为2.1.13。 redisson依赖升级 <dependency>&l…...

免费的ChatGPT分享

免费的ChatGPT 以下是一些免费的ChatGPT平台和工具&#xff1a; 零声教学AI助手 零声教育内部使用的ChatGPT&#xff0c;提供智能对话和问题解答功能。 Ora.ai 一个可以自定义的AI聊天机器人&#xff0c;可以根据个人需求进行定制和训练。 ChatGPT 人工智能聊天机器人&a…...

C语言—每日选择题—Day54

指针相关博客 打响指针的第一枪&#xff1a;指针家族-CSDN博客 深入理解&#xff1a;指针变量的解引用 与 加法运算-CSDN博客 第一题 1. 存在int类型变量x&#xff0c;y&#xff0c;z&#xff0c;其对应值为x0x59&#xff0c;y0x39&#xff0c;z0x6E&#xff0c;则x * y z的值…...

先进制造身份治理现状洞察:从手动运维迈向自动化身份治理时代

在新一轮科技革命和产业变革的推动下&#xff0c;制造业正面临绿色化、智能化、服务化和定制化发展趋势。为顺应新技术革命及工业发展模式变化趋势&#xff0c;传统工业化理论需要进行修正和创新。其中&#xff0c;对工业化水平的判断标准从以三次产业比重标准为主回归到工业技…...

【密码学引论】密码协议

定义&#xff1a;两个或者两个以上参与者为了完成某一特定任务而采取的一系列执行步骤密码协议&#xff1a;Kerberos、IPSec、SSL、SET算法是低层次上的概念&#xff0c;而协议是高层次上的概念&#xff0c;协议建立在算法的基础上。所有密码协议都容易受中间人攻击&#xff0c…...

利用快手的用户数据和精准营销提升电商平台用户转化率和销售额

一、快手用户数据的价值 快手作为国内领先的短视频平台&#xff0c;拥有庞大的用户群体和丰富的用户行为数据。这些数据包括用户的观看习惯、互动行为、兴趣偏好等&#xff0c;对于电商平台来说具有极高的商业价值。通过分析这些数据&#xff0c;电商平台可以深入了解用户需求…...

Linux根目录下默认目录作用

在Linux操作系统中&#xff0c;根目录&#xff08;/&#xff09;下的默认目录一般用于不同用途的文件存放和系统管理。以下是一些常见的默认目录及其用途&#xff1a; /bin&#xff1a;该目录存放系统的基本命令和可执行文件&#xff0c;如ls、cp、mv等。这些命令可供系统用户…...

国产Type-C接口逻辑协议芯片:Type-C显示器芯片方案

产品介绍 双Type-C盲插选型&#xff1a; LDR6282 PD3.0认证协议芯片&#xff0c;USB-IF TID号&#xff1a;212 支持iic&#xff0c;USB转UART&#xff0c;CC升级方式&#xff0c;多年市场验证&#xff0c;显示器市场出货量&#xff0c;显示器大厂采用兼容性NO.1。采用QFN32 5*…...

uniapp如何原生app-云打包

首先第一步&#xff0c;需要大家在HBuilder X中找到一个项目&#xff0c;然后呢在找到上面的发行选项 发行->原生App-云打包 选择完该选中的直接大包就ok。 大包完毕后呢&#xff0c;会出现一个apk包&#xff0c;这是后将这个包拖动发给随便一个人就行了。 然后接收到的那…...

分布式编译distcc

工程代码编译速度太慢&#xff0c;决定采用分布式编译来提高编译速度. distcc &#xff0c;请参考https://www.distcc.org/ 安装 我用的distcc的版本是distcc-3.2rc1, 下载源码&#xff0c;安装步骤如下&#xff1a; ./autogen.sh ./configure --disable-Werror --prefix/…...

Elasticsearch常见面试题

文章目录 1.简单介绍下ES&#xff1f;2.简单介绍当前可以下载的ES稳定版本&#xff1f;3.安装ES前需要安装哪种软件&#xff1f;4.请介绍启动ES服务的步骤&#xff1f;5.ES中的倒排索引是什么&#xff1f;6. ES是如何实现master选举的&#xff1f;7. 如何解决ES集群的脑裂问题8…...

solidity 重入漏洞

目录 1. 重入漏洞的原理 2. 重入漏洞的场景 2.1 msg.sender.call 转账 2.2 修饰器中调用地址可控的函数 1. 重入漏洞的原理 重入漏洞产生的条件&#xff1a; 合约之间可以进行相互间的外部调用 恶意合约 B 调用了合约 A 中的 public funcA 函数&#xff0c;在函数 funcA…...

【智能家电】东胜物联离在线语音方案为厨电企业赋能,实现厨房智能化控制

近年来&#xff0c;我国厨电市场蓬勃发展。据行业统计数据显示&#xff0c;至今年6月&#xff0c;市场规模已达356亿元&#xff0c;同比增长8.8%。随着数字科技、物联网和人工智能的兴起&#xff0c;厨电产品正在朝着更智能、多功能化的方向迅速发展。 为此厨电厂商正在积极布…...

3DMAX英文版怎么切换到中文版?

3DMAX英文换到中文版的方法 3dMax是专业三维建模、渲染和动画软件&#xff0c;它使你能够创建广阔的真实世界和各种高级设计。 -使用强大的建模工具为环境和景观注入活力。 -使用直观的纹理和着色工具创建精细的细节设计和道具。 -迭代并制作具有完全艺术控制的专业级渲染图…...

WEB渗透—PHP反序列化(八)

Web渗透—PHP反序列化 课程学习分享&#xff08;课程非本人制作&#xff0c;仅提供学习分享&#xff09; 靶场下载地址&#xff1a;GitHub - mcc0624/php_ser_Class: php反序列化靶场课程&#xff0c;基于课程制作的靶场 课程地址&#xff1a;PHP反序列化漏洞学习_哔哩…...

LeetCode——2415. 反转二叉树的奇数层

通过万岁&#xff01;&#xff01;&#xff01; 题目&#xff1a;给你一个完全二叉树&#xff0c;然后将其奇数层进行反转。思路&#xff1a;这个题他都说了是奇数层了&#xff0c;那基本就是层序遍历了。但是存在两个问题&#xff0c;一个是如何判断奇数层&#xff0c;另外一…...

【Spring学习笔记】Spring 注解开发

Spring学习——注解开发 注解开发注解开发定义bean纯注解开发 Bean管理bean作用范围bean生命周期 依赖注入自动装配 第三方bean管理注解开发总结XML配置与注解配置比较 注解开发 注解开发定义bean 使用Component定义开发 Component("bookDao") public class BookD…...

【华为数据之道学习笔记】6-5数据地图的核心价值

数据供应者与消费者之间往往存在一种矛盾&#xff1a;供应者做了大量的数据治理工作、提供了大量的数据&#xff0c;但数据消费者却仍然不满意&#xff0c;他们始终认为在使用数据之前存在两个重大困难。 1&#xff09;找数难 企业的数据分散存储在上千个数据库、上百万张物理表…...

JavaWeb笔记之JSP

一、引言 现有问题 在之前学习Servlet时&#xff0c;服务端通过Servlet响应客户端页面&#xff0c;有什么不足之处&#xff1f; 开发方式麻烦&#xff1a;继承父类、覆盖方法、配置Web.xml或注解。 代码修改麻烦&#xff1a;重新编译、部署、重启服务。 显示方式麻烦&#x…...

在x64上构建智能家居(home assistant)(二)(新版Debain12)连接Postgresql数据库

新版数据库安装基本和旧版相同,大部分可以参考旧版本在x64上构建智能家居(home assistant)&#xff08;二&#xff09;连接Postgresql数据库_homeassist 数据库-CSDN博客 新版本的home assistant系统安装,我在原来写的手顺上直接修改了,需要的可以查看在x64上构建智能家居(home…...

bae wordpress 3.8/新浪舆情通

版本&#xff1a;myeclipse6.5 设置项目默认编码1.myEclipse默认的新项目的编码是GBK变为UTF-8:Window->Preferences->General->Workspace->Text file encoding 将其改为UFT-8即可.js和jsp统一UTF-8:优化myEclipse启动速度 1.禁用myeclipse updating indexes ,用…...

网站运营需要哪些技术/海淀区seo引擎优化多少钱

Lecture 8 Additional Storage Linux上所有的存储设备都需要有一个设备文件对应&#xff0c;这些设备文件位于/dev/目录下。 USB&#xff0c;SCSI&#xff0c;SATA&#xff0c;iscsi设备以sd开头&#xff0c;IDE以hd开头。表示方式&#xff1a;/dev/sd[a-z]N。 这些设备文件由u…...

那些是flash做的网站/西安霸屏推广

作为一名程序员&#xff0c;尤其是开发Android应用程序的程序员&#xff0c;不会自己折腾ROM简直就是一件不好意思的事情&#xff0c;于是乎我就费劲巴力的上网看资料&#xff0c;找工具&#xff0c;准备自己开始制作有“中国特色”的ROM&#xff0c;以下是解决的一些问题&…...

深圳网站制作作/seo推广怎么入门

所以我正在用Python编写一个程序来获取任意数量的GCD. def GCD(numbers): if numbers[-1] 0: return numbers[0] # im stuck here, this is wrong for i in range(len(numbers)-1): print GCD([numbers[i1], numbers[i] % numbers[i1]]) print GCD(30, 40, 36) 该函数采用数字…...

wordpress添加首页友情链接/站长统计 站长统计

2019独角兽企业重金招聘Python工程师标准>>> 一. 安装 由于scrapy进行网络抓取的便捷与强大功能&#xff0c;准备在win7下安装该框架&#xff0c;但遇到很多麻烦。 开始时安装的是Python3.5 &#xff0c;利用pip工具安装&#xff0c;但总是遇到各种下载不下来的问题…...

在什么网站做贸易好/网站推广优化教程

说到期权这个投资工具&#xff0c;在我国其实还应用得不是很广泛&#xff0c;算起来从开始诞生也没几年&#xff0c;上证50ETF期权也不过5年的时间&#xff0c;每天的权利金交易量也就在10亿级别&#xff0c;虽然依附于股票&#xff0c;但是和股票市场的交易规模比起来就差远了…...