【论文笔记】Instantaneous Perception of Moving Objects in 3D
原文链接:https://arxiv.org/abs/2405.02781
简介:本文主张自动驾驶中细微运动的瞬时检测和量化与一般的大型运动同等重要。具体来说,由于激光雷达点云缺乏帧间对应关系,静态物体可能看起来在运动(称为游泳效应),使得微小运动检测模糊而不精确。本文提出使用局部占用补全来密集化形状线索,以减小游泳效应的影响。占用补全是与运动物体检测和运动估计一起端到端学习的。实验表明本文方法与标准的3D运动估计方法相比性能更优,特别是在细微运动上。
1. 引言
运动相关的计算机视觉任务包括:3D场景流估计(低级任务;预测各点的运动)、运动分割或检测(中级任务;通常为序列标注而非瞬时标注)、3D目标跟踪(高级任务;精确定位困难)。但因为细微运动会与游泳效应混合在一起难以分辨,这些任务难以识别细微运动(即改变驾驶倾向或行为的运动,如起步、倒车等)。
本文首先进行形状补全,即将激光雷达点云体素化为占用网格,然后多帧积累以密集化体素,作为占用补全的监督。为避免不完美补全影响后续运动估计,本文仅对可见表面进行形状补全,这也是主要运动信号的所在位置。本文将每个物体的点云分别输入专为微小运动训练的网络,称为S’More(微小运动回归器)。此外,本文从Waymo数据集的标注中提取出微小运动,用于评估。
3. 方法
3.1 问题定义与挑战
本文的目标是使用连续帧点云识别运动物体(汽车)并估计运动,特别关注细微运动。预处理步骤会过滤快速运动物体,仅关注静态物体和慢速运动物体;可与3D目标跟踪任务结合进行(如下图)。
此外,本文假设自车运动可以通过ICP(GPS/INS)可靠估计。
游泳效应:源自激光雷达点云的稀疏性。如图所示为静态物体上的两帧点云(分别用红/蓝点表示),可见由于点分布的位置差异,该物体看上去是运动的。
3.2 本文方法
如图所示为本文的S’More。过滤快速运动物体后,本文为每个余下的物体估计微小运动。首先体素化点云,然后提取特征,进行占用补全,从而进行运动分割和瞬时流估计。
3.2.1 占用补全
输入体素化:将连续 T T T帧中的每一帧点云 X t ∈ R N × 3 X_t\in\mathbb R^{N\times3} Xt∈RN×3体素化为 [ W x , W y , W z ] [W_x,W_y,W_z] [Wx,Wy,Wz]大小的二值网格(0表示无点,1表示含点),形成大小为 [ T , W x , W y , W z ] [T,W_x,W_y,W_z] [T,Wx,Wy,Wz]的结果。该结果可视为不完整的占用网格,因其仅表示部分可视表面。
局部占用补全:该步骤中,不完美的补全会引入额外噪声,从而影响运动估计结果。由于完整形状真值难以获取、复杂且没有必要,本文仅对 T T T帧均可视的部分进行占用补全,以增强运动特征的关键信号,同时最小化引入的噪声。
占用监督:本文利用物体的真实运动和自车运动,将其余 T − 1 T-1 T−1帧的激光雷达点转化到当前帧下,并标记相应的网格为1,且视线方向上的网格为0,其余网格视为未知。该步骤利用快速体素遍历算法实现。
3.2.2 网络结构和损失
网络结构:占用补全和运动检测器/运动流估计器均使用编码器-解码器结构。运动检测器将物体分类为静态/动态物体,而流估计器为每个占用体素回归运动向量,作为体素内点的运动流。具体来说,本文将高度和时间维度均视为通道,以使用2D卷积分别处理每个物体。
总体损失:包括用于占用补全和动静态物体分类的二元交叉熵损失,用于运动物体运动流预测的L1损失、尺度感知损失 L r e l L_{rel} Lrel和角度损失 L a n g L_{ang} Lang。
占用损失:记占用体素和未占用体素的集合分别为 ϕ o , ϕ e \phi_o,\phi_e ϕo,ϕe,则占用损失为
L o c c = E v ∈ { ϕ o , ϕ e } [ O ^ v log ( O v ) + ( 1 − O ^ v ) log ( 1 − O v ) ] L_{occ}=\mathbb E_{v\in\{\phi_o,\phi_e\}}[\hat O_v\log(O_v)+(1-\hat O_v)\log(1-O_v)] Locc=Ev∈{ϕo,ϕe}[O^vlog(Ov)+(1−O^v)log(1−Ov)]
其中 O v , O ^ v O_v,\hat O_v Ov,O^v分别为体素 v v v的占用预测和真值。
流预测损失:本文定义体素真实流 f ^ v \hat f_v f^v为体素中点真实流的均值。相对流损失为
L r e l = E v ∈ ϕ o ∥ f ^ v − f v ∥ 2 ∥ f ^ v ∥ 2 + ϵ L_{rel}=\mathbb E_{v\in\phi_o}\frac{\|\hat f_v-f_v\|_2}{\|\hat f_v\|_2+\epsilon} Lrel=Ev∈ϕo∥f^v∥2+ϵ∥f^v−fv∥2
其中 ϵ \epsilon ϵ为小常数, f v f_v fv为预测流。该损失由流大小反向加权,以强调小运动的学习。角度损失为
L a n g = E v ∈ ϕ o arccos ( ⟨ f v , f ^ v ⟩ ∥ f v ∥ 2 ⋅ ∥ f ^ v ∥ 2 + ϵ ) L_{ang}=\mathbb E_{v\in\phi_o}\arccos(\frac{\langle f_v,\hat f_v\rangle}{\|f_v\|_2\cdot\|\hat f_v\|_2+\epsilon}) Lang=Ev∈ϕoarccos(∥fv∥2⋅∥f^v∥2+ϵ⟨fv,f^v⟩)
其中 ⟨ ⋅ , ⋅ ⟩ \langle\cdot,\cdot\rangle ⟨⋅,⋅⟩表示向量点积。
4. 实验
4.1 S’More的评估
评估基准。本文利用Waymo数据集生成微小运动真值。具体来说,取连续5帧点云 F i F_i Fi,利用3D边界框标注计算空间变换,从而计算 F 1 F_1 F1中每个点 x i x_i xi的场景流 f i f_i fi。当最小流的大小 f min = min x i ∈ F 1 ∥ f i ∥ f_{\min}=\min_{x_i\in F_1}\|f_i\| fmin=minxi∈F1∥fi∥小于0.2m的时候,视为样本有效。当 f min < f t h r e f_{\min}<f_{thre} fmin<fthre时,视为物体静止。
评估指标。使用标准的F1分数评估动静态物体分类;端点误差(EPE)和角度误差评估物体运动流误差。
相关文章:
【论文笔记】Instantaneous Perception of Moving Objects in 3D
原文链接:https://arxiv.org/abs/2405.02781 简介:本文主张自动驾驶中细微运动的瞬时检测和量化与一般的大型运动同等重要。具体来说,由于激光雷达点云缺乏帧间对应关系,静态物体可能看起来在运动(称为游泳效应&#x…...
Segugio:一款针对恶意软件的进程执行跟踪与安全分析工具
关于Segugio Segugio是一款功能强大的恶意软件安全分析工具,该工具允许我们轻松分析恶意软件执行的关键步骤,并对其进行跟踪分析和安全审计。 Segugio允许执行和跟踪恶意软件感染过程中的关键步骤,其中包括从点击第一阶段到提取恶意软件的最…...
互联网系统的微观与宏观架构
互联网系统的架构设计,通常会根据项目的体量、业务场景以及技术需求被划分为微观架构(Micro-Architecture)和宏观架构(Macro-Architecture)。这两者的概念与职责既独立又相互关联。本文将通过一些系统案例,…...
数据库、数据仓库、数据湖和数据中台有什么区别
很多企业在面对数据存储和管理时不知道如何选择合适的方式,数据库、数据仓库、数据湖和数据中台,这些方式都是什么?有什么样的区别?企业根据其业务类型该选择哪一种?本文就针对这些问题,来探讨下这些方式都…...
vscode配色主题与图标库推荐
vscode配色主题推荐:Andromedavsocde图标库: vscode-icons Andromeda Dark theme with a taste of the universe 仙女座:一套宇宙深空体验的哑暗色主题; 高对比度,色彩饱和; Easy Installation Open the extensions sidebar on Visual Studio CodeSear…...
深度学习模型入门教程:从基础到应用
深度学习模型入门教程:从基础到应用 前言 在人工智能的浪潮中,深度学习作为一种强大的技术,正在各行各业中发挥着越来越重要的作用。从图像识别到自然语言处理,深度学习正在改变我们的生活和工作方式。本文将带您深入了解深度学…...
数据结构 软考
算法具有5个特性 可行性,有限性,确定性,输入, 输出 图: 有向图 Kruskal(克鲁斯卡尔)算法 和 prim(普鲁姆)算法 都是贪心算法 是一种用来在加权连通图中寻找最小生成树的算法,其操作对象是边. 找最小的不形成环 1.哈夫曼树(也叫最优树)…...
colcon构建ros2功能包时,出现exited with code 2报错的解决方案(bug)
背景: 在学习ros2时,跟着别人的示例进行构建,手敲的代码难免有一些语法错误。 问题: 在colcon构建时,并不会直接输出语法报错。而是出现exited with code 2错误,并提示未能生成功能包,就算加入…...
【大模型LLM面试合集】大语言模型架构_位置编码
位置编码 1.位置编码 不同于RNN、CNN等模型,对于Transformer模型来说,位置编码的加入是必不可少的,因为纯粹的Attention模块是无法捕捉输入顺序的,即无法区分不同位置的Token。为此我们大体有两个选择: 想办法将位置…...
FLINK 分流
在Apache Flink中,分流(Stream Splitting)是指将一条数据流拆分成完全独立的两条或多条流的过程。这通常基于一定的筛选条件,将符合条件的数据拣选出来并放入对应的流中。以下是关于Flink分流的详细解释: 一、分流方式…...
从零开始:构建一个高效的开源管理系统——使用 React 和 Ruoyi-Vue-Plus 的实战指南
✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…...
windows下pycharm社区版2024下载与安装(包含新建第一个工程)
windows下pycharm社区版2024下载与安装 下载pycharm pycharm官网 安装pycharm 1.进入官网 pycharm官网 下载 点击Download–>右侧Other versions 下载对应的社区版(如下图):下载网址 2.点击运行下载好的安装包 点击下一步 3.更改pychar…...
重构案例:将纯HTML/JS项目迁移到Webpack
我们已经了解了许多关于 Webpack 的知识,但要完全熟练掌握它并非易事。一个很好的学习方法是通过实际项目练习。当我们对 Webpack 的配置有了足够的理解后,就可以尝试重构一些项目。本次我选择了一个纯HTML/JS的PC项目进行重构,项目位于 GitH…...
表格编辑demo
<el-form :model"form" :rules"status ? rules : {}" ref"form" class"form-container" :inline"true"><el-table :data"tableData"><el-table-column label"计算公式"><templat…...
企业自建邮件系统选U-Mail ,功能强大、安全稳定
在现代企业运营中,电子邮件扮演着至关重要的角色,随着企业规模的增长和业务的多样化,传统的租用第三方企业邮箱服务逐渐显现出其局限性。例如,存储空间受限、数据安全风险、缺乏灵活的管理和备份功能,以及无法与其他企…...
蓝桥杯题目理解
1. 一维差分 1.1. 小蓝的操作 1.1.1. 题目解析: 这道题提到了对于“区间”进行操作,而差分数列就是对于区间进行操作的好方法。 观察差分数列: 给定数列:1 3 5 2 7 1 差分数列:1 2 2 -3 5 6 题目要求把原数组全部…...
浪潮云启操作系统(InLinux)bcache缓存实践:理解OpenStack环境下虚拟机卷、Ceph OSD、bcache设备之间的映射关系
前言 在OpenStack平台上,采用bcache加速ceph分布式存储的方案被广泛用于企业和云环境。一方面,Ceph作为分布式存储系统,与虚拟机存储卷紧密结合,可以提供高可用和高性能的存储服务。另一方面,bcache作为混合存储方案&…...
通过ssh端口反向通道建立并实现linux系统的xrdp以及web访问
Content 1 问题描述2 原因分析3 解决办法3.1 安装x11以及gnome桌面环境查看是否安装x11否则使用下面指令安装x11组件查看是否安装gnome否则使用下面指令安装gnome桌面环境 3.2 安装xrdp使用下面指令安装xrdp(如果安装了则跳过)启动xrdp服务 3.3 远程服务…...
# 渗透测试#安全见闻8 量子物理面临的安全挑战
# 渗透测试#安全见闻8 量子物理面临的安全挑战 ##B站陇羽Sec## 量子计算原理与技术 量子计算是一种基于量子力学原理的计算方式,它利用量子位(qubits)来进行信息处理和计算…...
【rabbitmq】实现问答消息消费示例
目录 1. 说明2. 截图2.1 接口调用截图2.2 项目结构截图 3. 代码示例 1. 说明 1.实现的是一个简单的sse接口,单向的长连接,后端可以向前端不断输出数据。2.通过调用sse接口,触发rabbitmq向队列塞消息,向前端返回一个sseEmitter对象…...
单片机_RTOS__架构概念
经典单片机程序 void main() {while(1){函数1();函数2();}} 有无RTOS区别 裸机 RTOS RTOS程序 喂饭() {while(1){喂一口饭();} } …...
ClickHouse在百度MEG数据中台的落地和优化
导读 百度MEG上一代大数据产品存在平台分散、质量不均和易用性差等问题,导致开发效率低下、学习成本高,业务需求响应迟缓。为了解决这些问题,百度MEG内部开发了图灵3.0生态系统,包括Turing Data Engine(TDE)计算引擎、Turing Dat…...
B/S架构(Browser/Server)与C/S架构(Client/Server)
基本概念 B/S架构(Browser/Server):即浏览器/服务器架构。在这种架构中,用户通过浏览器(如Chrome、Firefox、Safari等)访问服务器上的应用程序。服务器端负责处理业务逻辑、存储数据等核心功能,…...
idea中自定义注释模板语法
文章目录 idea 自定义模板语法1.自定义模板语法是什么?2.如何在idea中设置呢? idea 自定义模板语法 1.自定义模板语法是什么? 打开我的idea,创建一个测试类: 这里看到我的 test 测试类里面会有注释,这是怎…...
基于SSM的儿童教育网站【附源码】
基于SpringBoot的课程作业管理系统(源码L文说明文档) 目录 4 系统设计 4.1 系统概述 4.2 系统模块设计 4.3.3 数据库表设计 5 系统实现 5.1 管理员功能模块的实现 5.1.1 视频列表 5.1.2 文章信息管理 5.1.3 文章类…...
深挖自闭症病因与孩子表现的关联
自闭症,亦称为孤独症,乃是一种对儿童发展有着严重影响的神经发育障碍性疾病。深入探寻自闭症的病因与孩子表现之间的联系,对于更深刻地理解并助力自闭症儿童而言,可谓至关重要。 当前,自闭症的病因尚未完全明晰&#x…...
[网络协议篇] UDP协议
文章目录 1. 简介2. 特点3. UDP数据报结构4. 基于UDP的应用层协议5. UDP安全性问题6. 使用udp传输数据的系统就一定不可靠吗?7. 基于UDP的主机探活 python实现 1. 简介 User Datagram Protocol,用户数据报协议,基于IP协议提供面向无连接的网…...
关系型数据库(1)----MySQL(初阶)
目录 1.mysql 2.mysqld 3.mysql架构 1.连接层 2.核心服务层 3.存储引擎层 4.数据存储层 4.SQL分类 5.MySQL操作库 6.MySQL数据类型 1. 数值类型 2. 日期和时间类型 3. 字符串类型 4. 空间类型 5. JSON数据类型 7.MySQL表的约束 1. 主键约束(PRIMARY…...
计算机毕业设计Python+大模型租房推荐系统 租房大屏可视化 租房爬虫 hadoop spark 58同城租房爬虫 房源推荐系统
温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 用到的技术: 1. python…...
深度学习技术演进:从 CNN、RNN 到 Transformer 的发展与原理解析
深度学习的技术演进经历了从卷积神经网络(CNN)到循环神经网络(RNN)再到 Transformer 的重要发展。这三个架构分别擅长处理图像、序列数据和多种任务的特征,标志着深度学习在不同领域取得的进步。 1. 卷积神经网络&…...
柳州建网站/关键词检测工具
一、非标准1.下列程序执行后结果为3,则输入的x值可能为()xinput(“x”);yxx2 x;print(%io(2),y);endA.1 B.-3 C.-1 D.1或-32.下面程序输出的结果是()x6;y3;xx/3;y4 x1;print(%io(2),y);endA.2...技能鉴定试题库填空题(每题2分共计30分)1. 大气…...
mvc做网站前台代码/最近新闻今日头条
nodejs获取表单数据的方法 nodejs作为服务端语言,在开发中注册登录等需通过form表单向后端发送数据进行判断,那作为服务端语言的nodejs通过哪些方法可以接收调用form表单的post请求值呢。 常见的会用到以下三种,让我们对着例子看看具体用法。…...
vm虚拟机搭建wordpress/网络培训心得体会5篇
实验:复现PHP一句话木马的利用 文章目录实验:复现PHP一句话木马的利用实验目标详细步骤1.创建php文件遇到的问题:解决方案:2.下载、初始化蚁剑遇到的问题:解决方案:3.用蚁剑连接获得控制权遇到的问题:解决方案猜想学长…...
淘宝联盟网站备案/app拉新推广平台有哪些
电脑使用久了,难免会遇到系统出现一些故障的时候,当我们遇到一些比较棘手的时候该怎么办呢?其实除了重装系统外,我们或许可以选择电脑恢复出厂设置的方法,让坏的系统重新恢复过来,为此,小编就给…...
北京手机网站制作公司/2020年度关键词有哪些
学习来源:https://www.liaoxuefeng.com/wiki/1016959663602400/1017639890281664 正则表达式是一种用来匹配字符串的一种强大的武器,用一种描述性语言给字符串定一个规则,凡是符合规则的字符串,我们就认为匹配了,否则&…...
wordpress默认用某一号字体/百度客服中心
1011 AB 和 C (15 分) 给定区间 [−231,231] 内的 3 个整数 A、B 和 C,请判断 AB 是否大于 C。 输入格式: 输入第 1 行给出正整数 T (≤10),是测试用例的个数。随后给出 T 组测试用例,每组占…...