当前位置: 首页 > news >正文

【论文阅读】Multi-Camera Unified Pre-Training via 3D Scene Reconstruction

在这里插入图片描述
论文链接
代码链接
在这里插入图片描述

多摄像头三维感知已成为自动驾驶领域的一个重要研究领域,为基于激光雷达的解决方案提供了一种可行且具有成本效益的替代方案。具有成本效益的解决方案。现有的多摄像头算法主要依赖于单目 2D 预训练。然而,单目 2D 预训练忽略了多摄像头在空间和时间上的相关性。多摄像头系统之间的时空相关性。针对这一局限性,我们提出了首个多摄像头统一预训练框架。
首先重建三维场景作为基础阶段,然后对模型进行微调随后在下游任务中对模型进行微调。具体来说,我们采用 “占位”(Occupancy)作为三维场景的一般表示方法
三维场景的一般表征,使模型能够通过预训练掌握周围世界的几何先验
通过预训练,模型能够掌握周围世界的几何先验。UniScene 的一个显著优势是,它能够利用大量未标记的图像UniScene 的一个显著优势是它能够利用大量未标记的图像-LiDAR 对进行预训练。该所提出的多摄像头统一预训练框架在一些关键任务中取得了可喜的成果,如多摄像头三维物体检测和周边语义场景补全。
物体检测和周边语义场景补全等关键任务中取得了可喜的成果。与单目预训练方法相比,UniScene在多摄像头三维物体检测和周边语义场景补全中,UniScene 的 mAP 和 NDS 分别大幅提高了约 2.0% 和 2.0以及周围语义场景的 mIoU 提高了 3%。在周边语义场景补全方面,mIoU 提高了 3%。通过采用通过采用我们的统一预训练方法,可将三维训练和注释成本降低 25%。注释成本可降低 25%,为实现真实世界中的自动驾驶提供了重要的实用价值。

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决的问题是多摄像头3D感知在自动驾驶领域的挑战,特别是现有多摄像头算法主要依赖于单目2D预训练,忽略了多摄像头系统中的空间和时间相关性。为了解决这个限制,论文提出了一个名为UniScene的首个多摄像头统一预训练框架。该框架首先通过3D场景重建作为基础阶段,然后在下游任务上对模型进行微调。具体来说,论文采用了占用(Occupancy)作为3D场景的通用表示,使模型能够在预训练过程中掌握周围世界的几何先验。通过这种方式,UniScene能够利用大量的未标记的图像-LiDAR对进行预训练,从而提高了多摄像头3D目标检测和周围语义场景完成等关键任务的性能。

对 BEV 感知的结构图
在这里插入图片描述
单目和多目的对比
在这里插入图片描述

Q: 论文如何解决这个问题?

A: 论文提出了一个名为UniScene的多摄像头统一预训练框架,通过以下步骤解决多摄像头3D感知的问题:

  • 3D场景重建:首先,使用多摄像头系统重建3D场景,作为预训练的基础阶段。这一步骤利用了占用(Occupancy)作为3D场景的通用表示,使模型能够通过预训练掌握周围世界的几何先验。
    在这里插入图片描述

  • 无标签预训练:UniScene的预训练过程不需要标签,可以利用自动驾驶车辆收集的大量图像-LiDAR对,这些数据对包含了宝贵的3D空间和结构信息。

在这里插入图片描述

  • 多帧点云融合:由于单帧点云的稀疏性,论文采用了多帧点云融合作为占用标签生成的真值。这通过融合关键帧的LiDAR点云来实现。

在这里插入图片描述

  • 几何占位预测头:在BEV(鸟瞰图)特征上加入一个几何占用预测头,以学习3D占用分布,从而增强模型对3D周围场景的理解。

在这里插入图片描述

  • 预训练和微调:在预训练阶段,使用轻量级解码器来重建占用体素。预训练完成后,丢弃解码器,并使用训练好的模型来初始化多摄像头感知模型,然后在下游任务上进行微调

  • 空间-时间整合:通过利用多个摄像头视图的空间和时间信息,模型能够更好地理解环境的动态特性,并做出更准确的预测。
    在这里插入图片描述

  • 统一表示:统一预训练方法允许模型学习不同摄像头视图之间的共享表示,促进更好的知识迁移,并减少对特定任务预训练的需求。
    在这里插入图片描述

  • 处理遮挡区域:与单目深度估计方法相比,UniScene能够实现遮挡对象的整体3D重建。

  • 在这里插入图片描述

  • 考虑到单帧激光雷达点云的稀疏性,以及由于动态对象的存在而融合大量帧所产生的潜在不精确性,我们融合了一些关键帧的激光雷达点云和生成占用标签。根据3D感知模型的标准实践[45,46,47,48],激光雷达点云被划分为均匀间隔的体素。对于激光雷达点云沿Z×Y×X的维度分别为D×H×W,体素大小相应地确定为vZ×vH×vW。体素的占用,即在每个体素中是否包含点,用作基本事实T∈{0,1}D×H×W×1。1表示已占用,0表示空闲。

  • 介绍了用于预训练多摄像机感知模型的二进制几何占用分类任务。该任务的目的是训练网络基于多视图图像准确预测3D场景的几何占用分布。考虑到大量的空体素,预测占用网格提出了一个不平衡的二元分类问题。为了实现这一点,我们利用预测的占用值P和地面实况占用的体素T来计算二进制占用分类的焦点损失:

在这里插入图片描述
在这里插入图片描述

  • 实验验证:通过在nuScenes数据集上进行广泛的实验,验证了UniScene框架在多摄像头3D目标检测和周围语义场景完成等关键任务中的有效性。

通过这些步骤,UniScene框架能够在预训练阶段利用未标记的数据,同时考虑空间和时间相关性,从而提高了模型对复杂3D场景的理解能力,并减少了对昂贵和耗时的手动3D注释的依赖。

Q: 总结一下论文的主要内容

  • 问题定义:论文针对自动驾驶领域中多摄像头3D感知的问题,提出了现有算法主要依赖单目2D预训练,忽略了多摄像头系统中的空间和时间相关性。

  • UniScene框架:提出了首个多摄像头统一预训练框架UniScene,该框架通过3D场景重建作为预训练的基础阶段,然后在下游任务上对模型进行微调。

  • 占用表示:采用占用(Occupancy)作为3D场景的通用表示,使模型能够在预训练过程中掌握周围世界的几何先验。

  • 无标签预训练:UniScene能够利用大量的未标记的图像-LiDAR对进行预训练,减少了对昂贵3D标注的依赖。

  • 实验验证:通过在nuScenes数据集上的实验,展示了UniScene在多摄像头3D目标检测和周围语义场景完成等任务中的性能提升。

  • 性能提升:与单目预训练方法相比,UniScene在多摄像头3D目标检测任务上实现了约2.0%的mAP和NDS提升,在语义场景完成任务上实现了约3%的mIoU提升。

  • 实际价值:通过采用UniScene的统一预训练方法,可以减少25%的3D训练注释成本,对实际自动驾驶系统的实施具有重要价值。

  • 未来工作:论文指出了UniScene的局限性,并提出了未来工作的方向,包括提高分辨率、处理动态对象、利用显式监督和知识蒸馏技术等。

在这里插入图片描述
fine
uniscense_epoch_24

pretrain
occ_bev_epoch_24

相关文章:

【论文阅读】Multi-Camera Unified Pre-Training via 3D Scene Reconstruction

论文链接 代码链接 多摄像头三维感知已成为自动驾驶领域的一个重要研究领域,为基于激光雷达的解决方案提供了一种可行且具有成本效益的替代方案。具有成本效益的解决方案。现有的多摄像头算法主要依赖于单目 2D 预训练。然而,单目 2D 预训练忽略了多摄像…...

深入了解NumPy的原理与使用

文章目录 一、引言二、NumPy的原理1. 多维数组对象2. 广播(Broadcasting)3. 内存效率和速度 三、NumPy的使用1. 创建数组2. 数组操作3. 广播(Broadcasting)示例 四、总结 一、引言 在Python的数据科学和科学计算领域,…...

Linux Centos 环境下搭建RocketMq集群(双主双从)

1、下载rocketmq的包 下载 | RocketMQ 2、配置环境变量 1、编辑环境变量文件:vim /etc/profile2、加入如下配置: #rocketmq 4.9.8 ROCKETMQ_HOME/home/rocketmq/rocketmq-4.9.8 export PATH${ROCKETMQ_HOME}/bin:${PATH}3、刷新配置:source…...

全网最全postman接口测试教程和项目实战~从入门到精通

Postman实现接口测试内容大纲一览: 一、什么是接口?为什么需要接口? 接口指的是实体或者软件提供给外界的一种服务。 因为接口能使我们的实体或者软件的内部数据能够被外部进行修改。从而使得内部和外部实现数据交互。所以需要接口。 比如&…...

【ARM】MDK Debug模式下Disassembly窗口介绍

【更多软件使用问题请点击亿道电子官方网站】 1、 文档目标 主要了解Disassembly窗口中包含的内容,和如何利用Disassembly中的内容了解程序的存储和调用情况。 2、 问题场景 对于Disassembly窗口中具体包含的内容不了解,无法合理地应用Disassembly窗口…...

灵活的招聘管理系统有五种方法帮助成功招聘

还记得以前的时代吗?这取决于你的年龄,直到智能手机、流媒体电视和电子邮件出现。今天,任何活着的成年人都经历了技术上的巨大变化,这创造了一种新的行为方式。人才获取也是如此。 一个值得推荐的招聘管理系统 招聘团队被困在满足…...

美摄科技匿名化处理解决方案,包含模糊、同色、马赛克、效果遮挡等各种形式

信息安全已成为企业发展中不可忽视的重要一环,随着信息安全法规的日益严格和公众对个人隐私保护意识的不断提高,企业如何在保障业务顺畅进行的同时,满足信息安全和隐私保护的要求,成为了亟待解决的问题。美摄科技凭借其强大的技术…...

O2OA的数据库数据库配置-使用不同用户访问Oracle时报错-表或视图不存在

在使用Oracle数据库时,多个O2OA服务器同一个Oracle实例中使用不同的用户启动时,可能会遇到数据库访问的错误。本篇阐述此类问题以及解决方案。 一、先决条件: 1、O2OA已经下载并且解压到指定的目录; 2、Oracle数据库已经完成安…...

leetcode56 合并区间

题目 以数组 intervals 表示若干个区间的集合,其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间,并返回 一个不重叠的区间数组,该数组需恰好覆盖输入中的所有区间 。 示例 输入:intervals [[1,3],[2,6]…...

Elasticsearch扩展性探索:水平扩展与集群管理

在当今数据驱动的时代,搜索引擎和数据存储解决方案的重要性不言而喻。Elasticsearch,作为一款基于Lucene构建的开源、分布式、RESTful搜索引擎,凭借其强大的全文搜索、结构化搜索和分析能力,受到了众多企业和开发者的青睐。然而&a…...

node版本过高出现ERR_OSSL_EVP_UNSUPPORTED错误

错误原因: 新版本的nodejs使用的openssl和旧版本不同,导致出错 解决方法: 1.将node版本重新换回16.x 2 windows 下 在package.json文件下添加set NODE_OPTIONS--openssl-legacy-provider && "scripts": {"dev"…...

不得不看的AI前沿理论与技术: LLM-Assisted Light大模型

文章主要介绍最新论文《LLM-Assisted Light: Leveraging Large Language Model Capabilities for Human-Mimetic Traffic Signal Control in Complex Urban Environments》,该论文提出了一种名为LLM-Assisted Light(LA-Light)的创新方法&…...

流行跨链桥总结

本贴主要总结出现的新跨链桥,简介,及其项目主页,持续更新 1.Cbridge cBridge引入了一流的跨链Token桥接体验,为用户提供了深度流动性,为不想运营cBridge节点的cBridge节点运营商和流动性提供商提供了高效且易于使用的…...

代理网络基础设施 101:增强安全性、速度和可扩展性

编辑代理网络在现代网络架构中发挥着重要作用,充当管理和重新路由数据流的中介。它们处理的数据可以是各种类型,包括搜索查询和潜在的敏感客户信息,这凸显了它们在数据安全方面的作用。 然而,代理的好处不仅限于安全性。它们为用…...

小游戏app看广告app开发案例

游戏APP与看广告APP的开发案例众多,这些案例通常展示了如何通过创新的方式将游戏与广告相结合,实现用户体验与商业利益的双重提升。以下是一些具体的案例: 创意小程序广告案例: 某快餐品牌通过推出一款基于其主打产品(…...

VOC数据集

VOC(Visual Object Classes)格式的数据集是一种用于计算机视觉任务的标准数据集格式,它最初是由Pascal VOC(PASCAL Visual Object Classes)数据集引入的。VOC数据集格式定义了一套标准化的数据集结构,包括X…...

[Linux内核驱动]内存动态申请

内核空间内存动态申请 更多详细内容可以查看我的github kmalloc() 函数原型: void *kmalloc(size_t size, gfp_t flags);参数说明: size:要分配的内存块的大小,以字节为单位。flags:分配标志,用于指定内…...

在Worpress增加网站的二级目录,并转向到站外网站

在WordPress中,你可以通过添加自定义重定向来实现将某个二级目录(例如 www.example.com/subdir)重定向到站外网站。可以通过以下几种方法来实现: 方法一:使用 .htaccess 文件 如果你的服务器使用Apache,你…...

torch.max函数

torch.max函数的用法 第一种第二种 官方介绍:Link 有两种使用场景,输入的参数不同以及返回值不同: 第一种 没有参数dim,但这种只适合一维张量。 torch.max(input) → Tensor Returns the maximum value of all elements in the…...

“打造智能售货机系统,基于ruoyi微服务版本开源项目“

目录 # 开篇 售货机术语 1. 表设计说明 2. 页面展示 2.1 区域管理页面 2.2 合作商管理页面 2.3 点位管理页面 3. 建表资源 3.1 创建表的 SQL 语句(包含字段备注) 1. Region 表 2. Node 表 3. Partner 表 4. 创建 tb_vending_machine 表的 S…...

LeetCode347:前K个高频元素

题目描述 给你一个整数数组 nums 和一个整数 k &#xff0c;请你返回其中出现频率前 k 高的元素。你可以按 任意顺序 返回答案。 解题思想 使用优先队列 priority_queue<Type, Container, Functional> Type 就是数据类型&#xff0c;Container 就是容器类型&#xff08;C…...

2.线上论坛项目

一、项目介绍 线上论坛 相关技术&#xff1a;SpringBootSpringMvcMybatisMysqlSwagger项目简介&#xff1a;本项目是一个功能丰富的线上论坛&#xff0c;用户可编辑、发布、删除帖子&#xff0c;并评论、点赞。帖子按版块分类&#xff0c;方便查找。同时&#xff0c;用户可以…...

Java面试题:讨论synchronized关键字和java.util.concurrent包中的同步工具,如Lock和Semaphore

在 Java 中&#xff0c;synchronized 关键字和 java.util.concurrent 包中的同步工具都是用来控制多线程环境下的并发访问&#xff0c;以防止数据竞争和确保线程安全。下面是对 synchronized 关键字和 java.util.concurrent 包中的一些同步工具的讨论&#xff0c;包括它们的特点…...

酱香型白酒派系介绍

酱香型白酒作为中国传统白酒的重要流派&#xff0c;以其独特的酱香和复杂的酿造工艺而著称。在酱香型白酒中&#xff0c;形成了多个派系&#xff0c;各具特色。 以下是关于北派、茅派、川派和黔派等各个派系的详细介绍。 一、北派 地理位置&#xff1a;主要产于秦岭和淮河以…...

编译chamfer3D报错

python setup.py install编译chamfer3D报错 出现nvcc fatal : Unsupported gpu architecture ‘compute_86‘的问题&#xff0c;是因为显卡与cuda版本支持的算力不匹配。 nvcc fatal : Unsupported gpu architecture ‘compute_86’ ninja: build stopped: subcommand failed. …...

BuildConfig类找不到,BuildConfig.java类不在编译加载路径问题解决

今天用buildConfigField设置编译时常量遇到了问题&#xff0c;访问不到BuildConfig类&#xff0c;import导包也找不到类&#xff0c;具体设置如下&#xff1a; defaultConfig {applicationId com.sample.abcminSdk 28targetSdk 33versionCode getVerInt()//1versionName getVer…...

海外版coze前端代码助手

定位 解决前端同事的开发问题 参数配置 测试 支持 最屌的大模型及语音播报。 体验地址 海外版前端代码助手 需要魔法才能体验油...

python pyautogui实现图片识别点击失败后重试

安装库 pip install Pillow pip install opencv-python confidence作用 confidence 参数是用于指定图像匹配的信度&#xff08;或置信度&#xff09;的&#xff0c;它表示图像匹配的准确程度。这个参数的值在 0 到 1 之间&#xff0c;数值越高表示匹配的要求越严格。 具体来…...

怎么看电脑实时充电功率

因为我想测试不同的充电器给电脑充电的速度&#xff0c;所以就想找一款软件可以看电脑当前充电功率的软件&#xff0c;我给一个图 直接搜索就可以下载了&#xff0c;charge rate就是功率&#xff0c;这里是毫瓦&#xff0c;换算单位是 1000mw1w 所以我这里充电功率是65w&…...

Qt 实战(4)信号与槽 | 4.2、自定义信号与槽

文章目录 一、自定义信号与槽1、自定义信号2、自定义槽3、连接信号与槽4、总结 前言&#xff1a; 在Qt框架中&#xff0c;信号&#xff08;signals&#xff09;和槽&#xff08;slots&#xff09;机制是对象间通信的核心。这种机制允许对象在特定事件发生时发出信号&#xff0c…...

给自己的爱人做网站/国际新闻最新

很多朋友不清楚(function(){... })();这几种写法各代表是什么意思&#xff0c;下面小编通过本教程给大家简单介绍下(function(){... })();知识&#xff0c;感兴趣的朋友跟着小编一起学习吧 1.他叫做立即运行的匿名函数(也叫立即调用函数) 2.当一个匿名函数被括起来&#xff0c…...

百度链接提交地址/优化20条措施

$name yutuo;// 单引号字符串echo My name is $name;// 单引号字符串echo "My name is $name";echo "My name is {$name}";// here文档字符串echo <<< endMy name is $nameMy name is {$name}end;其结果为(输出没有任何换行&#xff0c;为了容易…...

wordpress换行符/网页设计制作网站素材

今天用了一下python发送带附件的邮件&#xff0c;结果弄了半天&#xff0c;一直报这个错误&#xff1a;smtplib.SMTPDataError: (554, b’DT:SPM 126 smtp10。 import smtplib from email.mime.text import MIMEText from email.mime.multipart import MIMEMultipartsend_addr…...

美国地接公司怎么在中国网站做推广/怎样能在百度上搜索到自己的店铺

亲测可用&#xff0c;若有疑问请私信 MySQL5.7.5后only_full_group_by成为sql_mode的默认选项之一&#xff0c;这可能导致一些sql语句失效。 比如在使用group by进行分组查询报错 1 查看自己的sql_mode配置: 在sql命令行中输入select sql_mode;这时我们能够看到自己的…...

qq群文件wordpress/seo引擎优化外包

有没有哪位大佬帮解决一下&#xff0c;非常感谢&#xff01;...

本地网站搭建工具/太原网站优化公司

Problem Description 国庆期间,省城HZ刚刚举行了一场盛大的集体婚礼,为了使婚礼进行的丰富一些,司仪临时想出了有一个有意思的节目,叫做"考新郎",具体的操作是这样的: 首先,给每位新娘打扮得几乎一模一样,并盖上大大的红盖头随机坐成一排; 然后,让各位新郎寻找自己…...