Deepinteraction 深度交互:通过模态交互的3D对象检测
一.前提
为什么要采用跨模态的信息融合?
点云在低分辨率下提供必要的定位和几何信息,而图像在高分辨率下提供丰富的外观信息。 -->因此必须采用跨模态的信息融合
提出的原因?
传统的融合办法可能会由于信息融合到统一表示中的不太完美而丢失很大一部分特定模态的信息。所以为了克服传统融合的限制提出了这篇论文。
关键思想是什么?
不是推导一个融合的单一表示,而是学习和保持两个特定模态的表示,以实现模态间的交互,从而可以自发地实现信息交换和特定模态的优势。
传统的融合办法和本文提出的办法对比?
(a):传统的办法 是将个体的各模态融合成一个单一的混合表示
(b):基于多模态交互的3D检测 通过编码器中的表示交互和解码器的预测交互,可以保持两个特定模态交互
二.主体结构
由两个重要组件组成: 1.具有多模态表征交互的编码器 2.具有多模态预测交互的解码器
1.编码器:多模态表征交互
(1).我们的编码器有多输入多输出结构 生成两个经过精细化处理的表示或图形输出。
(2).输入:以图像透视表征
和LiDAR BEV表征
两种模态的表征。
(3).方法:跨模态对应映射和采样为了定义跨模态邻接,我们首先需要在表示
和
之间建立像素到像素的对应关系 --> 我们在图像坐标帧c和BEV坐标帧p(Mp→c和Mc→p)之间构建密集映射。
(a).图像-Lidar特征交互 将图像特征中的视觉信号传播到激光雷达BEV特征中
1.从图像到LiDAR BEV坐标帧
首先将点云每个点(即坐标 coord)投影到多相机图像(i,j)中,再进行采样形成稀疏深度图
(
)
2.这一步完全就是引用的是transformer里面的self-attention 利用qkv的矩阵构建查询,键,值产生attention(是由权重计算得来的)
3.将加权后的特征表示
散布在LiDAR数据空间
(b).Lidar-图像特征交互
与上述相同
2.解码器:多模态预测交互
: 可能代表“边界框”(bounding box),用于表示图像中检测到的对象区域
Q:代表查询
C:代表通道
(a).MMPI-image
1.输入:特征
通过
边界框 提取感兴趣的区域 -->可以得到ROI 特征
2.查询特征->输入多头注意力机制 -> 残差连接和层归一化 ->线性层->将区域特征和查询特征->进行乘法-归一化-激活 -> 残差连接和层归一化 -> FFN前馈神经网络
(b).MMPI-LiDAR
同上
三.实验
1.表一:
- 表示使用测试时候增强 测试时增强并且使用模型集成 采用了多个 模型
这是一个在nuScenes测试集上最先进的方法比较
DeepInteraction-base (基础版本)在相同的Backbone中它的准确度最高 并且test和val集准确度都差不多
DeepInteraction-large (大规模版本) 在测试时增强的时候 测试集比预测集准确度明显较多(与其他相同情况下的比较下)
- Deeplnteraction-large以相同的TTA和测试时间大大击败了最接近的竞争对手LargeKernel3D-F。
- 我们的集成版本Deepnteraction-e在nuScenes排行榜上的所有解决方案中排名第一。
- 这些结果验证了我们的多模态交互方法的性能优势
2.表二:运行时间比较
FPS: 这个是指分辨率
多视角高分辨率相机图像的特征提取贡献了多模态3D检测器的大部分总体延迟。
3.表三:解码器的消融研究:在nuScenes值计算mAP和NDS
a):比较多模态预测交互(MMPI)和DETR解码器的层 -->来评估解码器层的设计
我认为L和C使用MMPI的效果更好一点
b): 从mAP和NDS的结果来看,使用LiDAR与图像交替的方法(LiDAR-image alternating),在目标检测性能上相对于仅使用LiDAR的方法有一定提升。这可能归因于图像能够提供更多的上下文信息,帮助模型更好地理解场景。
c):解码层增加到5层是最优的
d):在不同的选择下,性能是稳定的,200/300用于训练/测试作为最佳设置。
4.表四:表征相互作用编码器的烧灼研究
- IML:模态内学习 MMRI:多模态表征相互作用
a):编码器设计
MMRI可以显著提高IML的性能 单用的话 MMRI比IML的效果好
b):编码器层数
堆叠编码器层用于迭代MMRI是有益的
c):表征交互和传统的表征融合
Representational fusion:一种传统的特征融合方法,通常通过简单地结合不同模态的特征来进行目标检测
Representational interaction (Ours):表示提出的新方法,强调特征之间的交互作用,可能通过更复杂的方式来融合不同模态的信息
我们提出的效果 新方法更加有效
5.表五:不同激光雷达主干网的评价
(a):基于柱子的比较 (b)基于体素的比较
1.提出的多模态交互策略DeepInteraction在使用任何一种主干网时都比激光雷达基线表现出一致的改进
2.基于体素的主干网提高5.5% mAP,基于支柱的主干网提高4.4%mAP
3.我们的DeepInteraction在不同点云编码器中的通用性。
6.表六:与激光雷达
我们的融合方法在所有类别上都取得了显著的改进,特别是在微小或稀有物体类别上(自行车+11.8%mAP,摩托车+6.9% mAP,交通锥+9%mAP)
相关文章:
Deepinteraction 深度交互:通过模态交互的3D对象检测
一.前提 为什么要采用跨模态的信息融合? 点云在低分辨率下提供必要的定位和几何信息,而图像在高分辨率下提供丰富的外观信息。 -->因此必须采用跨模态的信息融合 提出的原因? 传统的融合办法可能会由于信息融合到统一表示中的不太完美而丢失很大一部分特定…...
开展物业满意度调查的策略与注意事项
(专业物业满意度调查公司)在物业管理领域,满意度调查是一项重要的工作,可以帮助物业公司了解居民的需求和期望,及时发现并解决问题,提升服务质量。民安智库作为专业调查咨询机构,拥有丰富的实战…...
如何使用 Maven 不同环境使用不同资源文件 提升项目安全性
需求: 之前的文章介绍过,不同环境,配置文件可以灵活构建,参考Maven 不同环境灵活构建。 进一步的,打包时时可以进一步优化,即开发环境,构建时只将测试资源文件打包到应用中,进一步提…...
QT 如何置顶窗口并激活
基本上,客户端软件都会有置顶某个窗口的需求。置顶窗口激活窗口,两者不是同一个问题。有时候窗口置顶了,并不代表该窗口属于激活状态。本文将尝试把这两个问题一起解决了,请看下文: 一、置顶窗口 通过函数setWindowF…...
嵌入式面试刷题(day19)
Makefile和Cmake的区别 Makefile 和 CMake 都是用于构建和管理软件项目的工具,但它们有不同的设计理念和使用方式。以下是二者的主要区别: 1. 概念和工作原理 Makefile: Makefile 是 make 工具的配置文件,定义了如何编译和链接程序。它基于文件的时间戳,使用规则(规则指…...
Robot Framework命令和Tag运用
前面的文章中我们为大家介绍了市面上常见自动化测试框架的解读以及Robot Framework的环境搭建,本文我们继续为大家介绍Robot Framework命令和Tag的运用,首先我们先一起看一下Robot Framework有哪些命令。 Robot Framework命令 先来看这一条:…...
软件分享丨PDF Shaper
【资源名】PDF Shaper 【地址】https://www.pdfshaper.com/ 【资源介绍】 PDF Shaper Professional是一款功能强大的PDF文档编辑与转换工具,使用它可以对PDF文件进行各种转换、提取、合并、旋转、加密、解密等编辑操作,主要功能有分割和合并PDF文件&…...
pytorch的标签平滑介绍
什么是标签平滑(Label Smoothing)? 标签平滑(Label Smoothing)是一种正则化技术,旨在防止模型过度自信(即输出的概率分布过于“尖锐”)。在分类任务中,标准的目标标签是one-hot编码,也就是正确类别的概率为 1,其他类别的概率为 0。而标签平滑通过将正确类别的概率从…...
CTE 与存储过程:SQL 查询简化与复杂业务逻辑处理的最佳选择
CTE(Common Table Expression,公共表表达式)和存储过程是两种不同的SQL工具,分别用于解决不同的问题。它们各有优缺点,适用于不同的场景。让我们从以下几个方面来比较它们: 1. 定义与作用 CTE:…...
mysql delete命令操作后,数据库文件大小并未变化,该怎么解决?
在 MySQL 中,使用 DELETE 命令删除数据后,数据表的大小可能不会立即减小,因为 MySQL 并不总是立即回收已删除数据所占用的空间。这是因为 MySQL 的存储引擎(如 InnoDB)可能会保留这些空间以备将来插入新数据时使用&…...
GitLab 发布安全补丁版本 17.3.2, 17.2.5, 17.1.7
本分分享极狐GitLab 补丁版本 17.4.2, 17.3.5, 17.2.9 的详细内容。这几个版本包含重要的缺陷和安全修复代码,我们强烈建议所有私有化部署用户应该立即升级到上述的某一个版本。对于极狐GitLab SaaS,技术团队已经进行了升级,无需用户采取任何…...
data_table_2 与 flutter 官方 DataTable 的区别
data_table_2 与 flutter 官方 DataTable 的区别 https://blog.csdn.net/ken2232/article/details/143181634 flutter 数据表增强库 data_table_2 错误问题 记录 (****) https://blog.csdn.net/ken2232/article/details/143180018 data_table_2 与 flutter 官方 DataT…...
TRIZ创新方法培训值得去吗?
面对日益复杂的市场环境和竞争态势,掌握有效的创新方法不仅关乎企业的生死存亡,也直接关系到个人的职业成长与竞争力。TRIZ作为一种系统化的创新方法论,其培训课程正逐渐受到企业和个人的广泛关注。那么,TRIZ创新方法培训究竟值得…...
STM32之基本定时器TIM6和TIM7
1.定时器概念和作用 在编程任务中,定时器是非常常用的一个问题。当需要定时发送数据,定时起某个任务,定时做某个操作等等,这些都离不开定时器。本文基于以STM32F4xx系列开发板,介绍一下基本定时器。 2.基本定时器TIM…...
嵌入式※~MCU~LWIP~TCPS/HTTPS等
单片机MCU中的加密通道, 使用各种的加密通道, http / tcp / mqtt 等 可能不在重复发了 ~~ 请看链接吧~~~ 我自己的原文哦~ https://blog.51cto.com/whaosoft/11803802...
神经网络model训练时loss=nan【原因总结】
一、Loss functions 中含 F.log_softmax()函数 原因: 由于在计算log_softmax(x)时, 出现log(0)的情况。 解决方法: 给log_softmax的参数x添加一个很小的数: out=F.log_softmax(x+1e-10).二、loss_function(x)函数参数中出现nan 原因: 网络的生成features x 中含有nan. 解…...
【力扣 | SQL题 | 每日5题】力扣2362, 2356, 2394, 2480, 2388
1. 力扣2362:生成发票 1.1 题目: 表: Products ------------------- | Column Name | Type | ------------------- | product_id | int | | price | int | ------------------- product_id 包含唯一值。 该表中的每一行显示了一个产品的 ID …...
直播间“饕餮盛宴”的背后,是“他经济”正在冒头
最近,一个有意思的现象逐渐露出了苗头。 今年“双11”第一轮尾款开启支付的当晚,罗永浩的直播间上演了一出别样的“饕餮盛宴”。直播开场后,iphone16系列、可口可乐(含糖、无糖300ml)10秒售罄,索尼PS5、沃…...
盘点5款常用的环境部署工具
在现代软件开发中,环境部署工具扮演着重要角色,特别是在 PHP 开发和微服务架构中。本文将深入探讨几种主流的环境部署工具,包括 XAMPP、Servbay、MAMP、Laravel Herd 和 Docker,详细分析它们的特点、优缺点、适用场景及最佳实践&a…...
条码检测系统——基于MATLAB的一维条码识别
条码检测系统——基于MATLAB的一维条码识别 摘 要:条码技术是如今应用最广泛的识别和输入技术之一,由于其包含的信息量大,识别错误率低而在各个方面得到很大的重视。它发展迅速并被广泛应用于于工业、商业、图书出版、医疗卫生等各行各业。由…...
【Word原件测试资料合集】软件系统功能测试方案,软件测试方案(整体方案),软件测试文档-测试计划模版(功能与性能),软件测试流程
一、 前言 (一) 背景 (二) 目的 (三) 测试目标 (四) 适用范围与读者对象 (五) 术语与缩写 二、 软件测试实施流程 (一) 测试工作总体流…...
1024 程序员节 快乐
大家好,今天是2024-10-24 程序员节~~~~~~~~~祝你节日快乐,程序员!哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦哦 喂~俺个炊饼~ 马飞~ 好了,该说…...
Java枚举类
1.枚举 1.1概述【理解】 为了间接的表示一些固定的值,Java就给我们提供了枚举 是指将变量的值一一列出来,变量的值只限于列举出来的值的范围内 1.2定义格式【应用】 格式 public enum s { 枚举项1,枚举项2,枚举项3; } 注意: 定义枚举类要用关键字enum 示例代…...
kubenetes/kubesphere搭建报错
一、prometheus问题 1.kubesphere 安装 prometheus-k8s 报以下错误: MountVolume.SetUp failed for volume "secret-kube-etcd-client-certs" : secret "kube-etcd-client-certs" not found 原因是:kube-etcd-client-certs 这个证…...
分享几个办公类常用的AI工具
办公类 WPS AI讯飞智文iSlideProcessOn亿图脑图ChatPPT WPS AI 金山办公推出的协同办公 AI 应用,具有文本生成、多轮对话、润色改写等多种功能,可以辅助用户进行文档编辑、表格处理、演示文稿制作等办公操作。 https://ai.wps.cn/ 讯飞智文 科大讯飞推…...
Vue入门示例
今天滴学习目标!!! 示例简介HTML内容主体区域输入框列表区域统计和清空 JS引入Vue.js库定义Vue实例el选项data选项methods选项 示例简介 HTML内容 本次实例讲解的是v-for、v-on、v-model来写这小小的实例,下面是实例的效果图&am…...
鸿蒙开发:实现全局异常捕获和异常查看
前言 开发中的异常信息,我们很容易排查,直接可以在控制台中就可以查看,但是,提交给测试同学或者上线后的异常信息,我们如何获取呢?这里我们很容易想起,三方sdk,比如常见的腾讯Bugly…...
Git和GitHub Desktop(Git客户端工具)下载安装教程
不说废话,直接开始。下载网址:https://git-scm.com/ 一.GIT下载 1.点击downloads 2.自己选择自己需要配置的版本 我是windows,所以选择的windows版本的安装 3.根据自己电脑的系统下载软件 我的是64位,选择64位安装 ps :下载很慢…...
Linux经常使用命令汇总和总结
Linux经常使用命令汇总和总结 文章目录 Linux经常使用命令汇总和总结一、基本命令二、目录操作命令三、文件操作命令四、压缩文件操作五、查找命令六、su、sudo七、系统服务八、网络管理九、定时任务指令crontab 配置十、其他命令 一、基本命令 1.1 关机和重启 关机 shutdown …...
three.js 灯光
环境光探针(AmbientLightProbe) 光照探针是一种在3D场景中添加光源的另一种方法。 AmbientLightProbe 是场景中单个环境光的光照估算数据。 有关光照探针的更多信息,请转到 LightProbe 。 构造函数 AmbientLightProbe( color : Color, int…...
学做网站赚钱方法/关键词优化公司如何选择
程序在开始处有一条注释(使用新的注释风格),给出了文件名和程序的目的。写这种程序说明很简单、不费时,而且在以后浏览或打印程序时很有帮助。...
网站如何做收款二维码/如何建一个自己的网站
昨天安装了myeclipse和Mysql。 今天新建了webservice项目。 转载于:https://www.cnblogs.com/nulidexuezha/p/4490963.html...
域名建议网站/电话投放小网站
由于MySQL的社区版是不支持审计系统的,因此通过第三方的插件实现审计功能。此次采用MariaDB的server_audit插件来实现MySQL的审计功能。 安装server_audit插件 1、下载server_audit插件 下载地址:http://mirrors.neusoft.edu.cn/mariadb//mariadb-5.5.62…...
电影网站建设教程下载/西安seo外包
2019独角兽企业重金招聘Python工程师标准>>> import sys import os import re import getpass# os.name 操作系统平台 Windows:nt|Linux/Unix:posix。 # os.getenv()/os.putenv()读取和设置环境变量。 # os.system()函数用来运行shell命令。 # os.linesep 行终止符 …...
怎么查看网站使用空间/谷歌推广效果好吗
2016-11-09 回答首先,要使用该控件就需要添加designlibrary,在androidstudio(还没有使用androidstudio的小伙伴们要赶紧更换啦)中添加依赖compile‘com.android.support:design:22.2.0’然后再布局文件中使用tablayout12345紧接着在下面添加viewpager123…...
长沙设计公司排行/百度信息流优化
使用SQL从AWR收集数据库性能变化趋势 为了对数据库一段时间的性能情况有个全面了解,显然AWR是一个非常有用的工具, 但很多人只会在数据库有性能问题时才会生成问题时段的awr报告去分析。虽然AWR 中给出的统计数据是一段时间的,对于峰值情况把…...