当前位置：首页 > news >正文

【论文笔记】Instantaneous Perception of Moving Objects in 3D

news 2026/2/8 15:00:37

原文链接：https://arxiv.org/abs/2405.02781

简介：本文主张自动驾驶中细微运动的瞬时检测和量化与一般的大型运动同等重要。具体来说，由于激光雷达点云缺乏帧间对应关系，静态物体可能看起来在运动（称为游泳效应），使得微小运动检测模糊而不精确。本文提出使用局部占用补全来密集化形状线索，以减小游泳效应的影响。占用补全是与运动物体检测和运动估计一起端到端学习的。实验表明本文方法与标准的3D运动估计方法相比性能更优，特别是在细微运动上。

1. 引言

运动相关的计算机视觉任务包括：3D场景流估计（低级任务；预测各点的运动）、运动分割或检测（中级任务；通常为序列标注而非瞬时标注）、3D目标跟踪（高级任务；精确定位困难）。但因为细微运动会与游泳效应混合在一起难以分辨，这些任务难以识别细微运动（即改变驾驶倾向或行为的运动，如起步、倒车等）。

本文首先进行形状补全，即将激光雷达点云体素化为占用网格，然后多帧积累以密集化体素，作为占用补全的监督。为避免不完美补全影响后续运动估计，本文仅对可见表面进行形状补全，这也是主要运动信号的所在位置。本文将每个物体的点云分别输入专为微小运动训练的网络，称为S’More（微小运动回归器）。此外，本文从Waymo数据集的标注中提取出微小运动，用于评估。

3. 方法

3.1 问题定义与挑战

本文的目标是使用连续帧点云识别运动物体（汽车）并估计运动，特别关注细微运动。预处理步骤会过滤快速运动物体，仅关注静态物体和慢速运动物体；可与3D目标跟踪任务结合进行（如下图）。
在这里插入图片描述
此外，本文假设自车运动可以通过ICP（GPS/INS）可靠估计。

游泳效应：源自激光雷达点云的稀疏性。如图所示为静态物体上的两帧点云（分别用红/蓝点表示），可见由于点分布的位置差异，该物体看上去是运动的。
在这里插入图片描述

3.2 本文方法

如图所示为本文的S’More。过滤快速运动物体后，本文为每个余下的物体估计微小运动。首先体素化点云，然后提取特征，进行占用补全，从而进行运动分割和瞬时流估计。
在这里插入图片描述

3.2.1 占用补全

输入体素化：将连续 $T$ 帧中的每一帧点云 $X_t\in\mathbb R^{N\times3}$ 体素化为 $W_x,W_y,W_z]$ 大小的二值网格（0表示无点，1表示含点），形成大小为 $T,W_x,W_y,W_z]$ 的结果。该结果可视为不完整的占用网格，因其仅表示部分可视表面。

局部占用补全：该步骤中，不完美的补全会引入额外噪声，从而影响运动估计结果。由于完整形状真值难以获取、复杂且没有必要，本文仅对 $T$ 帧均可视的部分进行占用补全，以增强运动特征的关键信号，同时最小化引入的噪声。

占用监督：本文利用物体的真实运动和自车运动，将其余 $T - 1$ 帧的激光雷达点转化到当前帧下，并标记相应的网格为1，且视线方向上的网格为0，其余网格视为未知。该步骤利用快速体素遍历算法实现。

3.2.2 网络结构和损失

网络结构：占用补全和运动检测器/运动流估计器均使用编码器-解码器结构。运动检测器将物体分类为静态/动态物体，而流估计器为每个占用体素回归运动向量，作为体素内点的运动流。具体来说，本文将高度和时间维度均视为通道，以使用2D卷积分别处理每个物体。

总体损失：包括用于占用补全和动静态物体分类的二元交叉熵损失，用于运动物体运动流预测的L1损失、尺度感知损失 $L_{rel}$ 和角度损失 $L_{ang}$ 。

占用损失：记占用体素和未占用体素的集合分别为 $\phi_o,\phi_e$ ，则占用损失为
$L_{occ}=\mathbb E_{v\in\{\phi_o,\phi_e\}}[\hat O_v\log(O_v)+(1-\hat O_v)\log(1-O_v)]$

其中 $O_v,\hat O_v$ 分别为体素 $v$ 的占用预测和真值。

流预测损失：本文定义体素真实流 $\hat f_v$ 为体素中点真实流的均值。相对流损失为
$L_{rel}=\mathbb E_{v\in\phi_o}\frac{\|\hat f_v-f_v\|_2}{\|\hat f_v\|_2+\epsilon}$

其中 $\epsilon$ 为小常数， $f_v$ 为预测流。该损失由流大小反向加权，以强调小运动的学习。角度损失为
$L_{ang}=\mathbb E_{v\in\phi_o}\arccos(\frac{\langle f_v,\hat f_v\rangle}{\|f_v\|_2\cdot\|\hat f_v\|_2+\epsilon})$

其中 $\langle\cdot,\cdot\rangle$ 表示向量点积。

4. 实验

4.1 S’More的评估

评估基准。本文利用Waymo数据集生成微小运动真值。具体来说，取连续5帧点云 $F_i$ ，利用3D边界框标注计算空间变换，从而计算 $F_1$ 中每个点 $x_i$ 的场景流 $f_i$ 。当最小流的大小 $f_{\min}=\min_{x_i\in F_1}\|f_i\|$ 小于0.2m的时候，视为样本有效。当 $f_{\min}<f_{thre}$ 时，视为物体静止。

评估指标。使用标准的F1分数评估动静态物体分类；端点误差（EPE）和角度误差评估物体运动流误差。

【论文笔记】Instantaneous Perception of Moving Objects in 3D

1. 引言

3. 方法

3.1 问题定义与挑战

3.2 本文方法

3.2.1 占用补全

3.2.2 网络结构和损失

4. 实验

4.1 S’More的评估

相关文章：

【论文笔记】Instantaneous Perception of Moving Objects in 3D

Segugio：一款针对恶意软件的进程执行跟踪与安全分析工具

互联网系统的微观与宏观架构

数据库、数据仓库、数据湖和数据中台有什么区别

vscode配色主题与图标库推荐

深度学习模型入门教程：从基础到应用

数据结构软考

colcon构建ros2功能包时，出现exited with code 2报错的解决方案(bug)

【大模型LLM面试合集】大语言模型架构_位置编码

FLINK 分流

从零开始：构建一个高效的开源管理系统——使用 React 和 Ruoyi-Vue-Plus 的实战指南

windows下pycharm社区版2024下载与安装（包含新建第一个工程）

重构案例：将纯HTML/JS项目迁移到Webpack

表格编辑demo

企业自建邮件系统选U-Mail ，功能强大、安全稳定

蓝桥杯题目理解

浪潮云启操作系统（InLinux）bcache缓存实践：理解OpenStack环境下虚拟机卷、Ceph OSD、bcache设备之间的映射关系

通过ssh端口反向通道建立并实现linux系统的xrdp以及web访问

# 渗透测试#安全见闻8 量子物理面临的安全挑战

【rabbitmq】实现问答消息消费示例

CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型

QMC5883L的驱动

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院查看报告小程序

Ascend NPU上适配Step-Audio模型

Reasoning over Uncertain Text by Generative Large Language Models

面向无人机海岸带生态系统监测的语义分割基准数据集

为什么要创建 Vue 实例

高防服务器价格高原因分析

结构化文件管理实战：实现目录自动创建与归类

深入解析 ReentrantLock：原理、公平锁与非公平锁的较量