RoI Transformer论文翻译详解
Learning RoI Transformer for Oriented Object Detection in Aerial Images
0.摘要
航空图像中的目标检测是计算机视觉中一个活跃而又具有挑战性的任务,因为它具有鸟瞰视角、高度复杂的背景和变化的物体外观。特别是在航空图像中检测密集的目标时,基于水平建议的普通目标检测方法往往会导致感兴趣区域(Region of interest, RoIs)与目标之间的不匹配。这就导致了最终目标分类置信度与定位精度之间的常见偏差。在本文中,我们提出了一个RoI Transformer来解决这些问题。RoI Transformer的核心思想是对RoI进行空间变换,并在定向包围框(OBB)注释的监督下学习变换参数。RoI Transformer是轻量级的,可以很容易地嵌入到检测器中,用于定向对象检测。简单地将RoI Transformer应用于light-head RCNN 已经在两个常见且具有挑战性的航空数据集上取得了最先进的性能,即DOTA和HRSC2016,检测速度的降低可以忽略。当定向边界框注释可用时,我们的RoI Transformer超过了可变形的位置敏感 RoI pool-ing。大量的实验也验证了我们的RoI Transformer的灵活性和有效性。
1.介绍
(1)背景
水平框检测会造成边界框和目标的不一致性,尤其是当目标密集分布时。由于航空影像目标方向的多样性,使用有限方向的RRoIs很难与所有的目标都正确匹配,并且多方向的RRoIs还会造成计算的高度复杂性。空间变换、形变卷积和RoI池化常被用来处理几何变形,并且不涉及标注的旋转边界框。在航空影像中,提取具有旋转不变性的区域特征,对于消除区域特征和目标的不匹配问题是非常重要的。
(2)本文研究的主要内容:
提出了RoI Transformer的模块结构,通过标注RRoI的监督学习和基于位置敏感对齐的特征提取,旨在利用双阶段框架实现密集旋转目标的检测。它由两部分组成:
第一个是RRoI学习器,它学习从hroi到RRoI的转换。
第二个是旋转位置敏感RoI Align,从RRoI中提取旋转不变特征,用于后续的对象分类和位置回归。
(3)本文研究的主要贡献:
- 我们提出了一个有监督的旋转RoI学习器,它是一个可以将水平RoI转换为RoI的可学习模块。该设计不仅可以有效缓解RoIs与对象之间的错位,还可以避免为定向对象检测而设计的大量锚点。
- 设计了用于空间不变特征提取的旋转位置敏感感兴趣区域对齐模块,可以有效地促进目标分类和位置回归。当使用light-head RoI-wise操作时,保证了效率和低复杂性。
- 我们在几个公共大规模数据集上实现了最先进的性能,用于航空图像中的定向目标检测。实验还表明,所提出的RoI Transformer可以很容易地嵌入到不同的主干中,并显著提高了检测性能。
2.相关工作
2.1. 定向边框回归
定向目标检测是一般水平目标检测的延伸。该任务是利用方向信息对目标进行定位和分类,主要采用基于区域建议的方法进行处理。基于HRoI的方法[15,37]通常使用普通的RoI warp从HRoI中提取特征,并回归相对于地面真实值的位置偏移。基于HRoI的方法存在区域特征与实例不匹配的问题。基于RRoI的方法[30,26]通常使用旋转RoI翘动(rotate RoI Warping)从RRoI中提取特征,并回归相对于RRoI的位置偏移量,可以在一定程度上避免误差问题。然而,基于RRoI的方法涉及生成大量旋转的提案。[26]对轮换提案采用[27]中的方法。SRBBS[27]很难嵌入到神经网络中,旋转生成提案会花费额外的时间。[30,43,41,1]在RPN[32]中采用了旋转锚的设计。然而,由于锚点数量的急剧增加(num scales×num aspect ratios×num angles),该设计仍然很耗时。例如,在一个位置设置3 × 5 × 6 = 90个锚。大量的锚点增加了网络中参数的计算量,同时也降低了建议与ground truth匹配的效率。此外,由于存在大量冗余的旋转锚点,定向包围框之间的直接匹配比水平包围框之间的直接匹配更难。因此,在旋转锚的设计中,[30,24]都采用了松弛匹配策略。有一些锚点在任何真实情况下都没有达到0.5以上的IoU,但它们被分配为True Positive样本,这仍然会导致不对齐的问题。在这项工作中,我们仍然使用水平锚。不同的是,当生成hroi时,我们通过轻全连接层将它们转换为rroi。基于这种策略,没有必要增加主播的数量。并且可以获得大量精确的rroi,这将促进匹配过程。因此,我们直接使用OBBs之间的借条作为匹配标准,可以有效地避免不对中问题。
2.2 空间不变特征提取
CNN具有平移不变性,但在旋转和尺度变化方面表现较差。对于图像特征提取,提出了空间变压器[14]和可变形卷积[5]来模拟任意变形。他们从目标任务中学习,没有额外的监督。对于区域特征提取,提出了可变形RoI池化[5],该算法通过对RoI池化采样网格进行偏移学习实现。与常规RoI翘曲相比,它可以更好地在实例级对变形进行建模[8,10,4]。STN和可变形模块被广泛应用于场景文本和航空图像识别领域[40,33,19,34,39]。航空图像中目标检测存在较多的旋转和尺度变化,很少有非刚性变形。因此,我们的RoI Transformer仅对刚性空间变换建模,该空间变换以(dx, dy, dw, dh, dθ)的格式学习。然而,与可变形的RoI池化不同,我们的RoI Transformer在地面真相的监督下学习偏移量。RRoIs还可以用于进一步的旋转边界框回归,这也有助于提高目标定位性能。
2.3 轻roi操作
在两阶段算法中,由于计算是不共享的,所以roi操作是效率的瓶颈。为了解决这一问题,提出了Light-head R-CNN[17]算法,通过使用更大的可分离卷积来获得薄特征。它还采用PS RoI池[4]进一步降低特征图的维数。在维数为10的池化特征上采用单一的全连通层,可以显著提高两阶段算法的速度。在航拍图像中,存在实例数量较大的场景。例如,单个1024 × 1024映像上可能有超过800个实例。我们的方法类似于可变形RoI池[5],其中进行两次RoI操作。为了保证效率,还采用了light-head设计。
3. RoI Transformer
在本节中,我们将详细介绍我们提出的RoI Transformer,它包含两个部分,RRoI Learner 和
RRoI Warping。RRoI Learner是一个PS RoI Align,后面是一个维度为5的全连接层,它回归了相对于hroi的旋转地面真理(rgs)的偏移量。RRoI Warping对旋转区域特征进行变形,以保持旋转不变性。对于端到端训练,这两层都是可微的。其架构如图2所示。
3.1. RRoI Learner
RRoI学习器的目标是从水平roi的特征图中学习旋转roi。假设我们有n个HRoI,用{Hi}表示,格式为(x, y, w, h),用于预测HRoI的二维位置、宽度和高度,对应的特征映射可记为{Fi}。由于在理想情况下,每个HRoI都是RRoI的外部矩形,我们试图通过使用全连接层从每个特征映射Fi推断RRoI的几何形状。我们首先给出相对于一般rroi的偏移的回归目标为
其中(xr, yr, wr, hr, θr)是表示RRoI的位置、宽度、高度和方向的堆叠向量,(x∗,y∗,w∗,h∗,θ∗)是有向包围盒(OBB)的地面真值参数。为了便于计算,用mod来调整角偏移目标t * θ在[0,2 π)内。的确,相对于HRoI的回归偏移的目标是Eq.(1)的特殊情况,如果θ∗= 3π 2。一般相对偏移量如图3所示为例。
为了推导式(1),需要将OBB的坐标从全局坐标系转换为局部坐标系(例如x1O1y1)。从数学上讲,全连接层为每个特征映射Fi by t = G(F;Θ),(2)
其中G表示全连通层,Θ是G的权重参数,F是每个HRoI的特征图。在训练过程中,我们需要匹配输入的HRoIs和定向包围盒(obb)的ground truth。为了提高效率,将HRoI与轴向包围框进行了基于原始地面真实值的匹配。一旦HRoI与OBB的ground truth相匹配,我们根据Eq.(1)中的定义直接设置t *。我们使用平滑L1损失[9]函数作为回归损失。对于每一次前向传递中的预测t,我们将其从偏移量解码为RRoI参数。也就是说,我们提出的RRoI学习器可以从HRoI特征图F中学习RRoI的参数。
3.2. RRoI Warping
得到RRoI参数后,可以提取旋转不变的深度特征,用于RRoI翘曲定向目标检测。在这里,我们提出了旋转位置敏感(RPS) RoI对齐模块作为具体的RRoI扭曲,因为我们的基线(更多细节在第2.3节)是Light-Head R-CNN[17]。给定形状为(H, W, K × K × C)的输入特征图D和RRoI (xr, yr, wr, hr, θr),其中(xr, yr)表示RRoI的中心,(wr, hr)表示RRoI的宽度和高度。θr给出了RRoI的方向。RPS RoI Align将旋转后的RoI分成K × K个bin,输出形状为(K, K, C)的特征图Y。对于输出通道C(0≤C < C)的索引为(i, j)(0≤i, j < K)的bin,我们有
其中Di,j,c是K × K × c特征映射中的一个特征映射。从输入到输出的通道映射与原来的位置敏感RoI池[4]相同。n × n是箱子中采样位置的个数。bin(i,j)表示坐标集{i wrk +(sx+ 0.5) wrk×n;Sx = 0,1,…N−1}×{j HRK +(sy +0.5) hrk×n;Sy = 0,1,…N−1}。对于每个(x, y)∈bin(i, j),它被Tθ转换为(x ', y '),其中
(x ', y ')为
通常,式(3)由双线性插值实现。
3.3. RoI Transformer for Oriented Object Detection
RRoI leaner和RRoI warping的组合形成了RRoI Transformer(RT)。它可以用来代替正常的RoI warping操作。来自RT的池化特征是旋转不变的。此外,RRoI为以后的回归提供了更好的初始化,因为与匹配的HRoI相比,匹配的RRoI更接近RGT。如前所述,RRoI是一个包含5个元素(xr, yr, wr, hr, θr)的元组。为了消除歧义,我们用h表示RRoI的短边,用w表示长边。选择垂直于h且落在[0,π]的方向作为RRoI的最终方向。在所有这些操作之后,避免了歧义。此外,这些操作还需要减少旋转变化。
(1)IoU between Polygons
在匹配RRoI和RGT时,我们仍然使用IoU作为标准。如果任何RGT的RRoI的欠条超过0.5的阈值,则被认为是真阳性(TP)。对于RRoI和RGT之间的IoU的计算,我们使用式(5)如下所示。
它与水平边界框之间的IoU计算形式类似。唯一的区别是,rroi的IoU计算是在多边形内执行的。Br表示RRoI的包围框。Bgt代表基本真理的边界框。面积是计算任意多边形面积的函数。
(2)Targets Calculation
对RRoI进行翘曲后,得到旋转不变性特征。然后我们加入一个2048维的全连通层(fc),再加入两个兄弟层(fcs),进行最终的分类和回归(如图2)。分类目标与之前的工作相同。然而,回归目标是不同的。为了保持一致性,偏移量也需要是旋转不变的。为了达到这一目标,我们使用图3所示的相对偏移量。主要思想是使用绑定到RRoI的坐标系,而不是图像进行偏移量计算。
4.实验
略
5.结论
本文提出了一个RoI Transformer模块来对几何变换进行建模,该模块可以有效地避免区域特征与物体之间的错位问题。该设计对具有挑战性的DOTA和HRSC上的面向对象检测带来了显著的改进,而计算成本的增加可以忽略不计。通过与可变形RoI池化的综合比较,验证了在有定向边界框标注的情况下,该模型更为合理。
相关文章:
RoI Transformer论文翻译详解
Learning RoI Transformer for Oriented Object Detection in Aerial Images 0.摘要 航空图像中的目标检测是计算机视觉中一个活跃而又具有挑战性的任务,因为它具有鸟瞰视角、高度复杂的背景和变化的物体外观。特别是在航空图像中检测密集的目标时,基于…...
Prometheus 自动发现监控AWS EC2实例
本文章简述对接自动发现AWS云EC2实例 前提环境: PromethuesGrafanaAWS IAM权限 涉及参考文档: AWS EC2Grafana 通用监控模板 一、IAM 用户创建 1、创建Prometheus 策略 策略规则: {"Version": "2012-10-17",&quo…...
从recat源码角度看setState流程
setState setState() 将对组件 state 的更改排入队列批量推迟更新,并通知 React 需要使用更新后的 state 重新渲染此组件及其子组件。其实setState实际上不是异步,只是代码执行顺序不同,有了异步的感觉。 使用方法 setState(stateChange | u…...
【Java|golang】1234. 替换子串得到平衡字符串---双指针
有一个只含有 ‘Q’, ‘W’, ‘E’, ‘R’ 四种字符,且长度为 n 的字符串。 假如在该字符串中,这四个字符都恰好出现 n/4 次,那么它就是一个「平衡字符串」。 给你一个这样的字符串 s,请通过「替换一个子串」的方式,…...
自监督表征学习方法——BYOL(Bootstrap Your Own Latent)
自监督表征学习方法——BYOL(Bootstrap Your Own Latent) 参考文献:《Bootstrap Your Own Latent A New Approach to Self-Supervised Learning》 1.前言背景 学习良好的图像表示是计算机视觉中的一个关键挑战,因为它允许对下游任务进行有效的训练。许…...
均衡负载集群(LBC)-1
均衡负载集群(LBC) 客户–>通过Internet—>负载调度器—>n台真实服务器 负载调度器: 软件:LVS;Nginx;Haproxy硬件:F5; LVS架构: 使用到C/S(B/S…...
WebSocket
关于WebSocket: WebSocket 协议在2008年诞生,2011年成为国际标准。现在所有浏览器都已经支持了。 WebSocket 的最大特点就是,服务器可以主动向客户端推送信息,客户端也可以主动向服务器发送信息,是真正的双向平等对话…...
GA-PEG-GA,Glutaric Acid-PEG-Glutaric Acid,戊二酸-聚乙二醇-戊二酸供应
英文名称:Glutaric Acid-PEG-Glutaric Acid,GA-PEG-GA 中文名称:戊二酸-聚乙二醇-戊二酸 GA-PEG-GA是一种线性双功能PEG羧酸试剂。PEG和羧基COOH之间存在C4酯键。PEG羧酸可用于与氨基反应,与NHS和DCC、EDC等肽偶联试剂反应。 P…...
使用sqlmap + burpsuite sql工具注入拿flag
使用sqlmap burpsuite sql工具注入拿flag 记录一下自己重新开始学习web安全之路③。 目标网站:http://mashang.eicp.vip:1651/7WOY59OBj74nTwKzs3aftsh1MDELK2cG/ 首先判断网站是否存在SQL注入漏洞 1.找交互点 发现只有url这一个交互点,搜索框和登录…...
替代AG9300|替代NCS8823|CS5260 Type-C转VGA视频转换方案
替代AG9300|替代NCS8823|CS5260 Type-C转VGA视频转换方案 CS5260是一款是一款实现USB TYPE-C到VGA视频转换的单片机解决方案转换器。CS5260支持USB Type-C显示端口交替模式,CS5260可以将视频和音频流从USB Type-C接口传输到VGA端口。在CS5260芯片中,显示…...
乐鑫特权隔离机制的 OTA 固件升级
固件空中升级 (OTA, Over-The-Air) 是任何联网设备的重要功能之一,支持开发人员通过远程更新固件,以发布新功能或修复错误。乐鑫特权隔离框架中包含两类应用程序:受保护的应用程序 (protected_app) 和用户应用程序 (user_app) ,这…...
C++数据结构 —— 二叉搜索树
目录 1.二叉搜索树的基本概念 1.1二叉搜索树的基本特征 2.二叉搜索树的实现 2.1数据的插入(迭代实现) 2.2数据的搜索(迭代实现) 2.3中序遍历(递归实现) 2.4数据的删除(迭代实现) 2.5数据的搜索(递归实现) 2.6数据的插入(递归实现) 2.7数据的删除(递归实现) 2.8类的完…...
Maven面试题及答案
1、Maven有哪些优点和缺点 优点: 1、简化项目依赖管理 2、方便与持续集成工具(Jenkins)整合 3、有助于多模块项目开发,比如一个模块开发好后发布到仓库,依赖该模块时可以直接从远程仓库更新,不用自己手动去编译 4、有很多插件&am…...
WebRTC系列-Qos系列之接收放RTX处理
文章目录 1. RTX详解1.1 RTX包头解析1.2 RTX包中的OSN2. RTX在WebRTC中处理2.1 组包2.2 解包2.3 发送及接收处理流程2.3.1 发送流程2.3.2 rtx标记的设置流程2.3.3 解析流程2.3.4 RTX解包在上一篇 WebRTC系列-Qos系列之接收NACK文章中分析了接收到nack后解析的主要流程。在WebR…...
国内能否炒伦敦金,2023国际十大正规伦敦金交易平台排名
在目前的投资市场环境中,现货黄金是一种屡见不鲜的投资选择,它依靠国际化的投资环境,成为了世界范围内投资者的重要选择对象。进行现货黄金投资,人们除了要认识市场发展基本现状之外,更要做好基本面和技术面分析工作&a…...
react路由 - react-router-dom
react路由 现代的前端应用大多都是 SPA(单页应用程序),也就是只有一个 HTML 页面的应用程序。因为它的用户体验更好、对服务器的压力更小,所以更受欢迎。为了有效的使用单个页面来管理原来多页面的功能,前端路由应运而…...
01-RTOS
对于裸机而言,对于RTOS而言即:对于裸机,打游戏意味着不能回消息 回消息意味着不能打游戏对于RTOS 打游戏和裸机的切换只需要一个时间片节拍 1ms 从宏观来看 就是同时进行的两件事(但要在这两件事情的优先级一样的情况下࿰…...
信息安全管理
信息安全管理信息安全管理信息安全风险管理信息安全管理体系应急响应与灾难恢复应急响应概况信息系统灾难修复灾难恢复相关技术信息安全管理 管理概念:组织、协调、控制的活动,核心过程的管理控制 管理对象和组成:包括人员在内相关资产&…...
深度学习tips
1、datasets_make函数中最后全部转化为numpy形式 datanp.array(data)否则会出现问题,比如数据是103216,经过trainloader生成tensor后(batch_size为30),发现生成的数据为: data.shape #(10,) data[0].shape…...
2023-2-13 刷题情况
替换子串得到平衡字符串 题目描述 有一个只含有 ‘Q’, ‘W’, ‘E’, ‘R’ 四种字符,且长度为 n 的字符串。 假如在该字符串中,这四个字符都恰好出现 n/4 次,那么它就是一个「平衡字符串」。 给你一个这样的字符串 s,请通过…...
[HSCSEC 2023] rev,pwn,crypto,Ancient-MISC部分
比赛后有讲解,没赶上,前20比赛完1小时提交WP,谁会大半夜的起来写WP。总的感觉pwn,crypto过于简单,rev有2个难的不会,其它不是我的方向都感觉过于难,一个都没作。revDECOMPILEONEOONE入门题,一个…...
SpringBoot 接入 Spark
本文主要介绍 SpringBoot 与 Spark 如何对接,具体使用可以参考文章 SpringBoot 使用 Spark pom 文件添加 maven 依赖 spark-core:spark 的核心库,如:SparkConfspark-sql:spark 的 sql 库,如:s…...
在线支付系列【23】支付宝开放平台产品介绍
有道无术,术尚可求,有术无道,止于术。 文章目录前言支付产品App 支付手机网站支付电脑网站支付新当面资金授权当面付营销产品营销活动送红包会员产品App 支付宝登录人脸认证信用产品芝麻 GO芝麻先享芝麻免押芝麻工作证安全产品交易安全防护其…...
Python绝对路径和相对路径详解
在介绍绝对路径和相对路径之前,先要了解一下什么是当前工作目录。什么是当前工作目录每个运行在计算机上的程序,都有一个“当前工作目录”(或 cwd)。所有没有从根文件夹开始的文件名或路径,都假定在当前工作目录下。注…...
基于多进程的并发编程
一:不同平台基于多进程并发编程的实现 1.Windows平台 参考博文:Windows 编程(多进程) 更多API: 1)waitForSingleObject:等待一个内核对象变为已通知状态 2)GetExitCodeProcess:获取…...
Flask入门(4):CBV和FBV
目录4.CBV和FBV4.1 继承 views.View4.2 继承 views.MethodView4.CBV和FBV 前面的例子中,都是基于视图函数构建视图(FBV),和Django一样,Flask也有基于类构建视图(CBV)的方法。这种方式用的不多&…...
Qt OpenGL(三十九)——Qt OpenGL 核心模式-在雷达坐标系中绘制飞行的飞机
提示:本系列文章的索引目录在下面文章的链接里(点击下面可以跳转查看): Qt OpenGL 核心模式版本文章目录 Qt OpenGL(三十九)——Qt OpenGL 核心模式-在雷达坐标系中绘制飞行的飞机 一、场景 在之前绘制完毕雷达显示图之后,这时候,我们能匹配的场景就更广泛了,比如说…...
系统应用 odex 转 dex
说下为什会有这个需求,以某系统应用为例,我们通过 adb 获取到的 apk 反编译查看只有少部分代码和资源,关键代码看不到。 经过一系列操作,把 odex 转换为 dex 可以看到源码。 工具下载 Smali 下载 1、使用 adb shell pm list pa…...
【GPLT 三阶题目集】L3-013 非常弹的球
刚上高一的森森为了学好物理,买了一个“非常弹”的球。虽然说是非常弹的球,其实也就是一般的弹力球而已。森森玩了一会儿弹力球后突然想到,假如他在地上用力弹球,球最远能弹到多远去呢?他不太会,你能帮他解…...
vue项目第三天
论坛项目动态路由菜单以及渲染用户登录全局前置拦截器获取用户的菜单以及接口执行过程解析菜单数据,渲染伟动态路由。菜单数据将数据源解析为类似路由配置对象的格式(./xxx/xxx 这种格式)。下方是路由实例的代码,后面封装了很多方法这里也需要…...
网站建设企业推荐/浙江疫情最新消息
所有题目均有五种语言实现。C实现目录、C++ 实现目录、Python实现目录、Java实现目录、JavaScript实现目录...
java电商网站开发开题报告/公司网络组建方案
一、Hive 默认的数据库 derby 继上篇 我们在hive 中操作一下,语法后面说,这篇主要讲如何和Mysql数据库关联起来,derby数据库只简单介绍,我们并不会去用这玩意,非常的不好用,主要是和Mysql关联,用Mysql数据库 derby是使用Java语言编写的一个微型,常用于内嵌在Java中的数…...
移动端网站/长沙好的seo外包公司
elk笔记24--用gohangout替代logstash消费日志介绍使用gohangout使用gohangout前后对比注意事项说明介绍 gohangout 是 childe 大佬使用 golang 模仿的 Logstash 开源项目。用于消费 Kafka 数据,处理后写入 ES、Clickhouse 等。 相对于elk 中官方提供的 logstash&am…...
网站建设审核需要多长时间/seo学校培训
19.闭包是什么?有什么特性?请简单书写一个简单事例? 必包:闭包是指可以包含自由(未绑定到特定对象)变量的代码块;这些变量不是在这个代码块内或者任何全局上下文中定义的,而是在定义…...
做公司中文网站需要注意什么/烟台seo外包
这个时代搞营销就像是在做一道未知口味的超级大蛋糕,而营销手段就好比不同的口味的配料,随着个人的喜好不同,配出的味道也将会不一样,但这个蛋糕终归是要拿到桌面上去品尝,所以在海量的人群信息中如何具有针对性的让潜…...
东莞网站制作建设公司/怎么做推广
阿里云负载均衡SLB怎么收费?码笔记发现付费模式分为包年包月和按量付费,负载均衡按固定带宽和按使用流量计费也不同。负载均衡按固定带宽收费需要支付两项费用,SLB实例租用费和带宽费;如果按使用流量计费,需要支付SLB实…...