当前位置：首页 > news >正文

51c自动驾驶~合集38

news 文章来源：https://blog.csdn.net/weixin_49587977/article/details/144103270 2025/4/20 4:02:35

我自己的原文哦~ https://blog.51cto.com/whaosoft/12358456

#GaussianPretrain

万能3D高斯预训练表示！爆拉3D检测、Occ、高精地图等四大任务！

受Tesla的技术的推动，越来越多的厂商开始走"纯视觉"的路线，多数方案还是集中在从多视图输入图像中提取鸟瞰图（BEV）特征，来解决下游目标检测、在线地图等各种应用。尽管有监督的方法还是占主导地位，但是它们非常依赖精确的GT标注，成本高、难度大往往成为一个比较显著的瓶颈。相反，大量且易于获取的未标记数据为提高性能提供了一个充满希望的途径。这就是所谓的自监督预训练技术，其核心思想是，通过利用精心设计的代理任务，从丰富的未标记数据中学习有意义的表示。然而当前的一些方案要么无法捕捉到有效的几何信息，要么无不能学习到详细的纹理信息。

3D Gaussian Splatting（3D-GS）以点云的形式表示，为场景重建提供了强大的表示，通过位置、颜色、旋转、缩放和不透明度等属性编码几何和纹理信息。正是受到3D-GS在有效场景表示和Masked autoencoders（MAE）在2D图像自监督学习中的成功的启发，作者提出了一种新颖的预训练方法GaussianPretrain，它结合了3D-GS和MAE方法，用于3D视觉学习中的预训练任务。

作者的方法包括两个关键创新：

LiDAR深度指导掩码生成器。为了提高效率，作者只关注从多视图图像中的有限数量的有效掩码补丁中学习高斯信息。这些补丁由MAE策略识别，并进一步过滤，只包括那些具有LiDAR深度监督的补丁。
基于射线的3D高斯锚点指导策略：对于每个LiDAR投影像素，执行射线投射操作到3D空间以采样体素内的点。作者引入了一组可学习的高斯锚点来指导从3D体素中作为体积LiDAR点的高斯属性的学习，并预测相关属性（例如，深度、不透明度）。这使得模型能够通过3D Gaussian Splatting同时理解场景的几何和纹理信息。
论文链接：https://arxiv.org/pdf/2411.12452

#具身智能训练数据集

具身智能训练要求智能体通过与环境的物理交互来学习智能行为，数据集对于具身智能的训练效果有着至关重要的影响，提高训练效果的根源在于使用丰富多样的数据集，让具身智能体接触到各种不同的情况，从而学习到更广泛的技能和应对策略。然而，数据集的数据采集过程复杂且成本高昂，数据标注工作往往需要专业知识和大量的人工劳动。

ARIO数据集 - 机器人控制

数据集链接：https://openi.pcl.ac.cn/ARIO/ARIO_Dataset

项目链接：https://imaei.github.io/project_pages/ario/

论文链接：https://arxiv.org/pdf/2408.10899

ARIO（All Robots In One）是鹏城实验室建立的大规模统一数据集，旨在解决现有数据集在开发多功能通用实体智能体方面的不足。ARIO支持 5 种感官模态，基于时间戳对齐多模态数据，采用统一数据架构，有统一配置，增强数据多样性，涵盖多种数据来源：（1）从真实场景收集：使用 Cobot Magic 平台（双手机器人移动操作平台）、Cloud Ginger XR - 1 平台（5G 轮式人形云机器人）。（2）从模拟平台生成，包括Habitat 的对象导航任务、MuJoCo 的操作任务、SeaWave 的操作任务。（3）从开源数据集转换，基于 Open X - Embodiment 数据集、基于 RH20T 数据集、基于 ManiWAV 数据集。

ARIO 数据集可用于训练具身智能体，以提高它们在各种任务和环境中的性能和适应性。ARIO拥有多模态特性，包含 2D 和 3D 视觉数据、触觉、声音和文本形式的数据，使得开发者可以在多种任务上进行模型训练；解决了多个现有数据集之间数据结构不一致的问题，显著减少前期数据清洗和预处理的时间。

G1数据集 - 人形机器人操作

开源数据采集的链接：https://github.com/unitreerobotics/avp_teleoperate

开源学习算法的链接：https://github.com/unitreerobotics/unitree_IL_lerobot

开源数据集和模型的链接：https://huggingface.co/UnitreeRobotics

宇树科技公布了开源 G1 人形机器人操作数据集，用以训练人形机器人，适配多种开源方案。宇树 G1 人形机器人操作数据集具有以下特点：（1）多样化的操作能力展示：通过演示视频可以看到，G1 人形机器人能够完成拧瓶盖倒水、叠三色积木、将摄像头放入包装盒、收集物品并存储、双臂抓取红色木块并将其放入黑色长方形容器中等复杂操作，显示出高度的灵活性和实用性。（2）数据采集方式创新：使用苹果的 Vision Pro 对 G1 进行遥操作控制。（3）丰富的数据维度：数据集中的图像分辨率为 640×480，每个手臂和灵巧手的状态及动作维度为 7。目前包含拧瓶盖倒水、叠三色积木、包装摄像头、存储物品、双臂抓取和放置等五大类操作的数据集。

RT-1数据集 - 机器人操作

论文链接：https://robotics-transformer.github.io/assets/rt1.pdf

开源链接：https://github.com/google-research/robotics_transformer

项目主页：https://robotics-transformer2.github.io/

RT-1 数据集是用于训练和评估机器人学习模型 RT-1 的数据集，旨在构建一个能够处理多种任务、对新任务和环境具有良好泛化能力的机器人系统。数据收集使用 13 个来自 Everyday Robots 的移动机械臂，在三个厨房环境（两个真实办公室厨房和一个训练环境）中收集数据。数据由人类提供演示，并为每个情节标注执行任务的文本描述，指令通常包含动词和描述目标对象的名词。

RT-1 能够执行超过 700 个语言指令，根据指令中的动词将其分组为不同技能，如拾取、放置、打开和关闭抽屉、取放抽屉中的物品、直立放置细长物品、推倒物品、拉餐巾和打开罐子等。涵盖多种行为和对象，通过增加 “pick” 技能的对象多样性来提升技能的泛化能力，并在实验中扩展了技能，包括一些现实的长指令任务，如在办公室厨房场景中的复杂操作。

RT-1 包含超过 130k 个机器人演示，这些演示构成了 744 个不同的任务指令，涉及多种技能和大量不同的对象。数据集中的技能和指令涵盖了多个领域，如物体操作、环境交互等，以支持机器人在不同场景下的任务执行和学习。

QT-Opt - 抓取

论文链接：https://arxiv.org/pdf/1806.10293

开源链接：https://github.com/quantumiracle/QT_Opt

QT-Opt 数据集是为训练机器人的视觉抓取策略而收集的大规模数据集，通过 7 个机器人在四个月内收集了超过 580k 次真实世界的抓取尝试，旨在让机器人学习通用的抓取技能，能够在未见过的物体上实现高成功率的抓取。

在收集数据集时，使用 7 个 KUKA LBR IIWA 机械臂，每个机械臂配备一个两指夹爪和一个位于肩部上方的 RGB 相机来收集数据。数据收集过程中，为了使模型能够学习到通用的抓取策略，使用了多样化的物体，这些物体在训练过程中定期更换，每 4 小时更换一次（在工作时间内），夜间和周末则保持不变。收集的数据包括机器人的相机观察（RGB 图像，分辨率为 472x472）、夹爪状态（开或关的二进制指示）以及夹爪相对于地面的垂直位置等信息。数据收集总共耗时约 800 机器人小时，数据量达到 4TB，足以训练出具有高成功率的抓取策略模型。

BridgeData - 机器人学习与泛化

论文链接：https://arxiv.org/pdf/2308.12952

项目主页：https://rail-berkeley.github.io/bridgedata/

BridgeData V2 是一个用于大规模机器人学习研究的数据集，旨在促进机器人学习方法的发展，包含丰富的机械臂操作行为数据，以支持多种任务和环境下的技能学习与泛化研究。数据集包含 60,096 条轨迹，其中 50,365 条专家演示轨迹和 9,731 条脚本策略收集的轨迹。涵盖 13 种技能，包括基础操作如拾取和放置、推动、重新定向物体，以及更复杂的操作如开门、关门、抽屉操作、擦拭表面、折叠布料、堆叠积木、扭转旋钮、翻转开关、转动水龙头、拉链操作和使用工具清扫颗粒状介质等。这些技能适用于多种环境和物体，确保学习到的技能具有通用性。包含 24 种环境，如厨房、水槽、桌面等，以及 100 多种物体。环境和任务的多样性使数据集能够支持多种学习方法的评估和研究，有助于机器人学习在不同场景下的任务执行和技能泛化。

TACO - RL - 长时域操作

论文链接：http://tacorl.cs.uni-freiburg.de/paper/taco-rl.pdf

项目链接：http://tacorl.cs.uni-freiburg.de/

数据集链接：https://www.kaggle.com/datasets/oiermees/taco-robot

TACO - RL 使用的数据集是通过在模拟和真实环境中对机器人进行远程操作收集的，包含机器人与环境交互的状态 - 动作序列，用于训练分层策略以解决长时域机器人控制任务，支持机器人从无结构的游戏数据中学习通用技能并实现复杂任务的执行。

收集的数据为无结构的游戏数据，未针对特定任务进行标记，包含多种机器人操作行为，如推动、抓取、放置物体，操作抽屉、滑动门和与 LED 按钮交互等，具有丰富的多样性和复杂性。数据集用于训练低层级策略，通过对无结构数据进行自动编码，学习从潜在计划到动作的映射，提取一系列基本行为原语。高层级策略通过离线强化学习（RL）利用后见之明重标记技术进行训练。

CLVR - 遥控

数据集链接：https://github.com/clvrai/clvr_jaco_play_dataset

CLVR Jaco Play Dataset 是一个专注于遥控机器人领域的数据集，共 14.87 GB，由南加州大学和 KAIST 的研究团队发布，它提供了 1,085 个遥控机器人 Jaco2的片段，并配有相应的语言注释。

FurnitureBench - 长时域操作

论文链接：https://arxiv.org/pdf/2305.12821

项目链接：https://clvrai.github.io/furniture-bench/

数据集链接：https://clvrai.github.io/furniture-bench/docs/tutorials/dataset.html

FurnitureBench是一个用于测试真实机器人复杂长时域操作任务的数据集。数据集聚焦于家具组装这一复杂长时域操作任务，其任务层次结构长，涉及家具部件的选择、抓取、移动、对齐和连接等步骤，平均任务时长在 60 - 230 秒（600 - 2300 低层级步骤）。任务要求机器人具备多种复杂技能，如精确抓取（不同家具部件抓取姿态各异）、部件重定向（通过拾取放置或推动实现）、路径规划（避免碰撞已组装部件）、插入和拧紧（精确对齐并重复操作）等。

通过使用 Oculus Quest 2 控制器和键盘对机器人进行远程操作来收集数据，历时 219 小时，涵盖八个家具模型。针对不同家具模型和初始化水平（低、中、高）收集了不同数量的演示数据。每个演示的时间步长因任务长时域性质而在 300 - 3000 步左右。数据收集过程中，通过使用不同颜色温度的单光面板并改变其位置和方向，以及每集随机化前视图相机姿势来增加数据多样性。

Cable Routing - 多阶段电缆布线

论文链接：https://arxiv.org/abs/2307.08927

项目链接：https://sites.google.com/view/cablerouting/home

数据集链接：https://sites.google.com/view/cablerouting/data

该数据集是为训练机器人的电缆布线策略而收集的，用于支持分层模仿学习系统，使机器人能够学习执行多阶段电缆布线任务，应对复杂的电缆操作挑战。数据集中包含了多种电缆形状、夹取位置和方向的变化，以及不同数量夹子（一夹、两夹、三夹）的布线任务数据，有助于训练出具有泛化能力的策略。

针对单夹电缆布线任务，通过人类专家远程操作机器人在不同位置和夹取方向上执行任务来收集数据。共收集 1442 条夹取轨迹，每条轨迹时长约 3 - 5 秒，包含约 20 个时间步，每个时间步包含机器人相机图像（四个）、机器人配置状态向量和人类远程操作员的指令动作。在训练单夹布线策略和其他原语后，通过人类专家按顺序触发原语以执行完整的多阶段电缆布线任务来收集数据。在一夹、两夹或三夹的场景下，电缆初始状态为平放在桌子上的任意形状，专家输入原语，机器人执行，同时记录整个轨迹的感官信息。

RoboTurk - 模仿学习

论文链接：https://arxiv.org/abs/1811.02790

项目链接：https://github.com/RoboTurk-Platform/roboturk_real_dataset

数据集链接：https://roboturk.stanford.edu/dataset_real.html

ROBOTURK 数据集是通过众包平台收集的用于机器人学习任务的大规模数据集，旨在解决机器人模仿学习中数据收集困难的问题，使机器人能够从大量的人类演示中学习操作技能，应对复杂的操作任务。数据涵盖了不同用户在多种任务和操作条件下的演示，包括不同物体的操作（如 lifting 任务中的立方体、picking 任务中的各种物品、assembly 任务中的螺母等）以及不同的操作场景，有助于训练出具有泛化能力的机器人策略。

#量产之问

1.大佬，想问一下有没有通过视觉大模型来做行为预测的工作呀？

回答1：应该是有的，有类似occworld的工作，九月份有个综述可以看下【自动驾驶中的大模型！】全面概...

2.请问，用多模态大语言模型去挖掘带有目标物体（文本 prompt ）的图片，现在推荐的预训练大语言模型或者框架吗？我目前能够到想到 base model 的是 sam 和 clip 结合。但不知道对小目标的精确度性能如何。

回答1：大模型我还不太熟悉，我理解你是想做类似grounding的任务，小目标可以搜下arxiv，按照小目标的关键词搜索下

3.对于NOA功能怎么确定域控里跑的是啥地图？HD/SD/HQ map?

回答1：至少可视化界面上你看不出来。。。只能猜吧？可以这样，去一些hard case场景看看，或者没有高精地图的地方看看（不太可能采集到的），看看效果咋样，如果效果很差，说明依赖高精

回答2：也不能单纯以来高精，现在无图的效果基本上可以和有图对齐了。域控里面跑的啥地图要找下游规控问一下，SD这种信息都是图商提供的，算法怎么用下游怎么用都不是固定的模式

回答3：可视化界面可以看出来是不是HD，对地面标志（左转，右转，掉头）的识别如果在跳动，说明不是HD，是靠感知的呲牙

4.大佬，数据处理(大模型自动标注）和三维重建那个方向更值得选？

回答1：我觉得都可以，算是上下游关系了，重建后再去做一些自动标注。个人觉得如果能接触到大模型相关的知识，做自动标注方向吧，接触的训练模型方面更多一些，三维重建需要很多SLAM，Nerf还有3DGS知识，看你背景如何。

5.有协同检测数据集opv2v、v2xset的网盘链接吗，从官网下载流量不够....

回答1：去opendatalab搜索下

6.有人会魔改pytorch源码吗？pytorch源码目录繁多，根本搞不清都是哪些做用啥的，有人知道要魔改一个算子的话，需要从哪里入手吗？

回答1：魔改算子？这个有点难，比如采样插值等等，你要看底层代码，然后修改完之后怎么封装等等

回答2：官方文档有写如何自定义算子，你去看看呢

7.提问：想做单相机的bev感知，以kitti数据集做参考，请问在自制数据的时候，是否可以只用一个16线激光雷达和一个彩色相机采集数据。如果不行，还有哪些传感器是必备的呢

回答1：分不分量产车和真值车，真值还需要稠密些的点云标注

回答2：目前还不用在车上，现在是想先采些数据，做3D目标检测和BEV检测，是不是没有GPS/IMU也可以

8.请问我跑多目标跟踪代码，CPU占用比较多，但是也会用到一点GPU，最好在网上租什么服务器，我看网上单独租CPU的其中并没有GPU，所以不能单独租CPU，昨天试2080ti，内存没有跑满，但是跑的也是比较慢。

回答1：一般这种代码后处理比较多，所以cpu占用多一些。服务器根据你的需要就可以了，一般跟踪对gpu需求不高

回答2：有些库里面的算子可能有gpu加速，主要还是cpu为主

9.各位佬上午好～想问一下针对BEV空间中的栅格划分，现在有使用动态变化方式的方案吗？例如近/远处的格子分辨率不同或者近远处密集/稀疏程度有差别

回答1：这种不行吧，动态划分一些2d feat到bev上的cuda算子不好做吧

10.你好，我是一名基础架构的工程师，学习自驾是想了解，自驾算法会对视频图像进行抽帧，每帧都是很小的图片，请问下在工业落地的时候，如何解决海量小文件读取的性能瓶颈？本人想到有两条路：

第一条就是把大量的图片合成一个大图片，类似pickle这样的解决方案？

第二条就是在训练框架里面，每次输入源做优化，把很多相近时间段内的图片灌进去，避免出现读随机性？

本人对算法框架的输入源控制不太熟悉，因此想请教下这两种方法落地可行性，还有没有其他工业界落地比较好的方案？多谢

回答1：在实车运行时，自驾算法是按照时间序列输入图像和其他传感器数据的，不会同时海量小图。如果是训练模型这个阶段，也会分batch进行。

11.想请问一下，目前视觉做一些3d目标检测之类的，如何适配不同相机，不同场景的呢？例如单目3d检测，训练涉及到使用相机内参，如何适配到其他相机。bevformer之类的？

回答1：两种方式，要么做域迁移，要么直接用虚拟相机。一般涉及到相机内参的事情，换个相机就不咋好用了，所以领域有一些域迁移的工作，少量本相机的样本+其它成像的数据，一起做优化。还有就是直接把相机模型统一，但这样会遇到一个问题，那就是可能视场角不太一样

12.相同的运算，改变运算顺序，会影响程序的运行结果吗？一段基本上都是乘法和加法的程序，运算结果和理想中的有一些误差，有可能是什么原因啊？

回答1：第一，要给点伪代码出来看看
第二，有可能是改变运算顺序的时候，如i++这些可能会有使用习惯不当导致获取结果不同。
第三，如果是一串很复杂的加法和乘法逻辑，那就一步步全部拆开，分步写等等。
第四就是使用分段调试，先对不同段之间的逻辑调换顺序，一点点调试看结果哪里会有差异

13.3dod的细分类（比如面包车小轿车之类）一般是怎么做的哇？

回答1：标注细分下

14.请教一下，移动机器人基于局部路径规划决策，传统的算法和基于深度强化学习的算法有没有比较好的算法可以推荐学习一下的。有开源的代码就更好了

回答1：机器人导航汇总链接：涉及移动机器人、水下机器人、视觉-语言导航、ROS等

综述

Autonomous Navigation and Collision Avoidance for Mobile Robots: Classification and Review

论文链接：[2410.07297] Autonomous Navigation and Collision A...我们的“具身智能之心”星球比较多哈哈

15.请问联合轨迹预测有没有什么常用的数据集，上次只做了Argoverse2被审稿人喷了

回答1：waymo interaction prediction benchmark也可以

回答2：这也能被喷，argoverse waymo这几个常用的都要跑跑嘛

16.介绍一下个人情况，本人研一，北京双非学校，目前方向是自动驾驶，但是没有任何人带，导师不是这个领域，跟着导师的小老师做，小老师是车辆工程专业的老师，但是做的比较传统，提供不了太大帮助，但个人非常适合这种自由度高但资源少的局面，也有信心去把这件事情做好。

我的目的是读博，因为我想做的是一些创造和探索性质的工作，当然最重要的肯定是想把自己的想法实现，自由度能高一些，自己想做什么就大程度能做什么，一开始想做规控，学习了控制的一些经典算法比如PID，LQR，在carsim上简单做了实验，但是肤浅的觉得传统控制领域（指的是应用在自动驾驶领域内的）没有太多空间去做了，无非是基于学习去优化一下原有的方法（这里是说研究空间，不是工程实际应用）。

而且端到端一直弄的我心痒痒的，所以我开始去较为深入的了解端到端，看了星球发布的端到端学习路线，认真看了端到端行业报告和几场PPT讲座，感觉我自己去弄端到端有点自不量力的感觉，而且实验室只有一张quadro RTX8000的卡。

其次比较关注的就是轨迹预测和3D目标检测方面。

因为我一直是想能先通过一些相较于端到端较为容易上手的而且实验室资源能够支持的模块入手，逐渐向端到端靠拢，而目标检测作为端到端依赖的最初起点，以及轨迹预测又作为模块端到端的起点，所以重点关注了一下这两个模块，而且觉得这两个模块的学习思维应该比较接近端到端的学习思维

问题：

1.那如果我要读博，还想做端到端，应该到底从哪入手呢，是3D目标检测，还是轨迹预测，还是说从其他的模块开始

2.我以上的这个思路是不是正确的，有没有认知上的偏差

3.从硕士三年，或者说两年半这个长线来看，基于我这个计划，我要提前做什么部署呢，需要注意哪些细小但举足轻重的东西呢

我一直想自己推测一个结果出来，可发现知之甚少，所以请教各位老师，感谢各位老师的悉心解答，谢谢各位老师！

回答1：有几个问题你需要想办法，自动驾驶感知的算力问题，端到端需要的算力也很大

1、端到端可以直接基于开源的算法入手，但你是小白入门，学习的过程差什么补什么，像3D目标检测、轨迹预测你在学习的过程都会针对性的补充学习

2、我看你整体的描述，觉得你整体上还在入门的阶段，有这些困惑很正常，大体两三个月就会越来越清晰要做什么 3、你现在所要做的就是紧跟前沿，热点随时会变，持续学习

17.请教一个问题，在nuScenes上跑点云语义分割，只用单帧进行训练，数据增强只有旋转翻转这样的简单增强，指标很低。我用SparseUnet，PTV3，Cylinder3D搞了都很低。同样的网络，在waymo上指标没有那么差。

是不是nuScenes数据集过于稀疏的原因呢？还是有其他原因呢？

回答1：第一你跑的算法有没有在nuScenes上进行实验，第二其他在nuScenes上实验的算法配置是怎样，这些你对比下

18.大佬们好，雷达cfar前数据（频谱数据）和camera有哪些融合方案或者论文可以参考，最好是稀疏的方法，求甩在我脸上

回答1：centerfusion、RCBEV可以看看

19.想问下有没有介绍相机，激光雷达等传感器原理的书籍或资料，包括传感器内部的原理和故障分析等等，感谢！

回答1：硬件这块确实没见过，相机的话有一些相机标定的书，激光雷达这些是不是看产品手册会更好？

回答2：B站上搜激光雷达拆解

20.目前在自动驾驶领域有没有真实数据和生成数据相结合的数据集

回答1：一般有用合成数据结合生成数据一起用提升性能的，直接做一个真实+合成意义不大，合成数据可以根据真实的做

回答2：这里面有些数据集，你可以看看【计算机视觉中的合成数据增强方法】

21.occ bev可以使用广角和鱼眼镜头一起组合使用么，因为提特征的网络是一样的，不同畸变的镜头一起组合使用有问题么，各个厂家有使用鱼眼镜头做occ bev任务么

回答1：大部分是去了畸变再进网络，地平线7号有篇部署ParkingE2E到J6的Demo就是这么做的。老哥也在做鱼眼Occ吗，可以交流下

22.现在大模型的可部署性怎么样？现在在车载芯片上可以用好大模型吗？

回答1：可以部署的，把模型裁一裁。本质还是transformer的部署。大模型可以用在座舱和端到端，可以参考下理想小鹏长安的发布会

#博世将裁员5500人，汽车行业寒冬来了？

博世在华面临的情况完全不同，它反而需要加快速度，跟上中国车企智能化和电动化转型节奏

博世计划在全球裁员5550人，其中包括德国工厂3800人。德国当地时间11月22日，博世和德国工会组织IG Metall发布上述信息，IG Metall反对博世这一计划。

博世曾在11月初警告，如果2024年财务目标无法实现，将在全球范围进行裁员。博世称，汽车市场销量疲软，行业整体出现产能过剩。同时，行业转向电动化、智能驾驶、集中式软件控制等方面的速度不及预期，汽车企业正在推迟或放弃很多这些领域的项目。博世是全球最大的汽车零部件供应商，难免受到影响。

近期欧洲车企也在密集采取措施降本或裁员。11月20日，福特汽车宣布将在欧洲裁员4000人，数量相当于欧洲员工总数的14%。

11月21日，大众汽车集团与工会进行了新一轮劳资谈判，双方还没有就关键条款达成一致。工会威胁将在12月1日举行大规模罢工。

#DeSiRe-GS

专为自动驾驶而生！彻底摒弃3D框，动静态重建完美解耦（UC Berkeley最新）

UC Berkeley最新的工作，提出了DeSiRe GS。全新自监督高斯飞溅表示，可以在复杂的驾驶场景中实现有效的静态-动态分解和高保真表面重建。我们的方法采用动态街道高斯的两阶段优化流水线。在第一阶段，由于3DGS只能重建动态环境中的静态区域，因此首先提取2D运动目标mask。然后这些提取的2D运动先验以可微的方式映射到高斯空间，在第二阶段利用动态高斯的有效公式。结合引入的几何正则化，我们的方法能够解决自动驾驶中数据稀疏引起的过拟合问题，重建与物体表面对齐而不是漂浮在空中的物理上合理的高斯分布。此外，我们引入了时间跨视图一致性，以确保跨时间和视点的一致性，从而实现高质量的表面重建。综合实验证明了DeSiRe GS的效率和有效性，超越了先前的自监督技术，实现了与依赖外部3D边界框标注的方法相当的准确性。

开源链接：https://github.com/chengweialan/DeSiRe-GS

总结来说，本文的主要贡献如下：

本文基于3DGS无法成功建模动态区域的简单观察，从外观差异中轻松提取运动信息。
然后以可微的方式使用time-varying高斯将提取的局部帧中的2D运动先验提取到全局高斯空间中。
引入了有效的3D正则化和时间交叉视图一致性，以生成物理上合理的高斯球，进一步增强高质量的分解和重建。

相关工作回顾

城市场景重建。新视图合成的最新进展，如神经辐射场（NeRF）和3D高斯散斑（3DGS），显著推进了城市场景重建。许多研究已经将NeRF集成到自动驾驶的工作流程中。Urban Radiance Fields结合了激光雷达和RGB数据，而Block NeRF和Mega NeRF则对大型场景进行了分区，以进行并行训练。然而，动态环境带来了挑战。NSG使用神经场景图来分解动态场景，SUDS引入了一个用于4D场景表示的多分支哈希表。EmerNeRF和RoDUS等自我监督方法可以有效地应对动态场景挑战。EmerNeRF通过场景流估计捕获目标对应关系，RoDUS利用基于核的鲁棒训练策略结合语义监督。

在基于3DGS的城市重建中，最近的工作引起了人们的关注。StreetGaussians使用球谐函数分别对静态和动态场景进行建模，而DrivingGaussian引入了用于静态背景和动态目标重建的特定模块。OmniRe通过动态高斯场景图统一了静态和动态对象重建。

静态动态分解。几种方法试图对动态和静态部件的变形进行建模。D-NeRF、Nerfiles、Deformable GS和4D-GS通过引入变形场扩展了vanilla NeRF或3DGS。他们计算规范到观测的转换，并通过变形网络分离静态和动态组件。然而，由于学习密集变形参数需要大量的计算资源，将这些方法应用于大规模驾驶场景具有挑战性，不准确的分解会导致次优性能。

对于自动驾驶场景，NSG将动态和静态部分建模为神经场景图中的节点，但需要额外的3D注释。其他基于NeRF的方法利用多分支结构分别训练时变和时不变特征。基于3DGS的方法，也侧重于静态-动态分离，但仍面临局限性。PVG为每个高斯函数分配速度和寿命等属性，区分静态和动态。然而，这种分离仍然不完整，缺乏彻底性。

神经表面重建。传统的神经曲面重建方法更侧重于真实的几何结构。随着神经辐射场（NeRF）技术的兴起，神经隐式表示显示出高保真表面重建的前景。StreetSurf建议在城市环境中解开近景和远景，以更好地进行隐式表面重建。

3D GS重新引起了人们对显式几何重建的兴趣，最近的工作侧重于几何正则化技术。SuGaR通过引入和附加正则化项将高斯椭球体与物体表面对齐，而2DGS直接用2D圆盘替换3D椭球体，并利用截断符号距离函数（TSDF）融合深度图，实现无噪声的表面重建。PGSR引入了单视图和多视图正则化，以实现多视图一致性。GSDF和NeuSG将3D高斯与神经隐式SDF相结合，以增强表面细节。TrimGS通过修剪不准确的几何体来细化表面结构，保持与3DGS和2DGS等早期方法的兼容性。虽然这些方法在小规模重建中表现出色，但较新的作品旨在解决大规模的城市场景。RoGS提出了与路面物理特性相一致的2D高斯曲面表示。

DeSiRe-GS方法详解

如图2所示，训练过程分为两个阶段。我们首先通过计算渲染图像和GT图像之间的特征差来提取2D运动mask。在第二阶段，我们使用PVG将2D运动信息提取到高斯空间中，从而能够以可微的方式纠正每个高斯的不准确属性。

Dynamic Mask Extraction (stage I)

在第一阶段，我们观察到3D高斯散斑（3DGS）在重建静态元素方面表现良好，例如驾驶场景中停放的汽车和建筑物。然而它很难准确地重建动态区域，因为原始的3DGS没有包含时间信息。如图2（阶段1）所示，这种限制会导致渲染图像中出现重影状浮点等伪影。为了解决这个问题，我们利用静态和动态区域之间的显著差异，开发了一种有效的方法来提取编码运动信息的分割mask。

最初，采用预训练的基础模型从渲染图像和用于监督的GT图像中提取特征。设F表示从渲染图像I中提取的特征，F表示从GT图像I中抽取的特征。为了区分动态和静态区域，我们计算相应特征之间的每像素相异度D。相异度度量D对于类似特征接近0，表示静态区域，对于不同特征接近1，对应于动态区域。

当预训练模型被冻结时，计算出的相异度得分不涉及任何可学习的参数。我们提出了一种多层感知器（MLP）解码器来预测动态度δ，而不是对D应用简单的阈值来生成运动分割mask。该解码器利用提取的特征，其中包含丰富的语义信息，同时采用相异性得分来指导和优化解码器的学习过程。

通过采用等式7中定义的损失函数，解码器被优化以预测与动态区域对应的D较高的区域中的较低值，从而最小化损失。然后，我们可以获得二进制掩码编码运动信息（ε是固定阈值）：

在训练过程中，图像渲染和mask预测的联合优化是相辅相成的。通过在监控过程中排除动态区域，渲染图像和GT图像之间的差异变得更加明显，从而有助于提取运动蒙版。

Static Dynamic Decomposition (stage II)

虽然第一阶段提供了有效的动态mask，但这些mask仅限于图像空间而不是3D高斯空间，并且依赖于GT图像。这种依赖性限制了它们在新型视图合成中的适用性，在这种情况下，监督图像可能不可用。

为了将2D运动信息从第一阶段桥接到3D高斯空间，我们采用了PVG，一种动态场景的统一表示（第3节）。然而，PVG对图像和稀疏深度图监督的依赖带来了挑战，因为很难从间接监督信号中学习到准确的运动模式。因此，如图2（第2阶段）所示，渲染的速度图V通常包含噪声异常值。例如，速度应为零的道路和建筑物等静态区域没有得到有效处理。这导致场景分解不令人满意，PVG经常对预期速度为零的区域进行错误分类。

为了缓解这个问题并生成更精确的高斯表示，我们结合了从第一阶段获得的分割mask来正则化2D速度图V，该速度图V是从3D空间中的高斯图渲染的。

最小化Lv会惩罚速度应为零的区域，有效地消除了原始PVG产生的噪声异常值。该过程将运动信息从2D局部帧传播到全局高斯空间。对于每个高斯分布，通过应用一个简单的阈值，可以区分动态和静态高斯分布。与PVG和S3Gaussian相比，这种方法实现了更优的自监督分解，而不需要额外的3D标注，如之前方法中使用的边界框。

Surface Reconstruction

Geometric Regularization

Flattening 3D高斯：受2D高斯散斑（2DGS）的启发，我们的目标是将3D椭球体压平成2D圆盘，使优化的高斯更好地符合物体表面，并实现高质量的表面重建。3DGS的尺度s=（s1，s2，s3）定义了椭球体沿三个正交轴的大小。最小化沿最短轴的比例有效地将3D椭球体转换为2D磁盘。缩放正则化损失为：

法线推导：曲面法线对于曲面重建至关重要。以前的方法通过向每个高斯函数附加一个法向量来合并法线，然后使用该法向量来渲染法线图N。使用地面真值法线图来监督高斯法线的优化。然而，这些方法往往无法实现精确的表面重建，因为它们忽略了尺度和法线之间的内在关系。我们不附加单独的法向量，而是直接从尺度向量s中推导出法向量n。法向量方向自然与对应于最小尺度分量的轴对齐，因为高斯在展平正则化后形状像圆盘。

通过这种法线公式，梯度可以反向传播到尺度向量，而不是附加的法线向量，从而促进高斯参数的更好优化。正常损失是：

Giant高斯正则化：我们观察到，3DGS和PVG都可以在不进行额外正则化的情况下产生超大高斯椭球，特别是在无界驱动场景中，如图3（a）所示。

我们的主要目标是拟合适当缩放的高斯分布，以支持精确的图像渲染和表面重建。虽然具有低不透明度的超大高斯椭球体对渲染图像的影响可能很小，但它们会严重损害表面重建。这是一个在仅关注2D图像渲染的现有方法中经常被忽视的局限性。为了解决这个问题，我们为每个高斯函数引入了一个惩罚项：

Temporal Spatial Consistency

在驾驶场景中，视图的稀疏性通常会导致高斯优化过程中对训练视图的过拟合。单视图图像丢失特别容易受到远距离无纹理区域的挑战。因此，依赖图像和稀疏深度图的光度监督是不可靠的。为了解决这个问题，我们建议通过利用时间交叉视图信息来增强几何一致性。

在假设静态区域的深度在不同视图之间随时间保持一致的情况下，我们引入了一个跨视图时空一致性模块。对于参考系中深度值为dr的静态像素（ur，vr），我们将其投影到最近的相邻视图——重叠最大的视图。使用相机内部函数K和外部函数Tr、Tn，相邻视图中的相应像素位置计算如下：

然后，我们查询相邻视图中（un，vn）处的深度值dn。将其投影回3D空间，得到的位置应与通过将（ur，vr，dr）反向投影到参考系而获得的位置对齐：

为了加强交叉视图深度一致性，我们应用几何损失来优化高斯分布，定义为：

这种损失促使高斯人随着时间的推移在视图中产生几何一致的深度。

优化

第一阶段：在第一阶段，我们的目标是利用运动掩模和渲染图像的联合优化来有效地学习运动掩模。因此，我们只使用遮蔽图像损失LI：

第二阶段：我们使用阿尔法混合来渲染深度图、法线图和速度图，如下所示：

实验结果

结论

本文提出了一种用于驾驶场景中静态动态分解和高质量表面重建的自监督方法DeSiRe GS。通过引入运动掩模模块并利用时间几何一致性，DeSiRe GS解决了动态对象建模和数据稀疏性等关键挑战。

#理想汽车大模型算法工程师面试，被问的瑟瑟发抖

最近面试了理想汽车大模型岗位，被面试官强度拉满了...不仅问到了很多大模型的基础，还有RAG、强化学习、部署的各种问题，尤其是对大模型如何落地自动驾驶进行了很长时间的讨论。毕竟理想的VLM是国内首个上车的，这块的经验积累还是比较丰富。

本文章主要记录了本小菜研找实习的坎坷历程，欢迎大佬们给建议！！！

1. 自我介绍

自我介绍环节主要是让大家进入快速面试状态，聊聊个人基本信息、教育背景、工作经历和技能特长等等。

2. 项目面

因为我简历上面写一个RAG项目，所以面试官主要围绕RAG进行提

问聊一下RAG项目总体思路？
在做RAG项目过程中遇到哪些问题？怎么解决的？
RAG项目里面有哪一些亮点？目前开源的RAG项目非常多，你的项目和他们有什么区别？
...

通用大模型也问到了很多基础的内容：

阿里的Qwen-VL
任意模态算法X-InstructBLIP
统一视觉任务大模型的Florence2
...

3. 技术问题回答

3.1 简单介绍一下大模型存在哪些问题？有什么好的解决方法？

大模型幻觉问题

外挂知识库
大模型微调
强化学习
...

3.2 大模型加速框架了解多少，知不知道原理如何进行加速优化？

vLLM

vLLm 运行大模型非常快主要使用以下方法实现的

先进的服务吞吐量
通过PageAttention 对attention key & value 内存进行有效的管理
对于输入请求的连续批处理
高度优化的CUDA kernels

OpenLLM

OpenLLM 运行大模型非常快主要使用以下方法实现的

促进实际生产过程中的大模型的部署，微调，服务和监测.

TensorRT-llm

DeepSpeed-MII 运行大模型非常快主要使用以下方法实现的

组装优化大语言模型推理解决方案的工具，提供Python API 来定义大模型，并为 NVIDIA GPU 编译高效的 TensorRT 引擎.

3.3 如何看待自动驾驶大模型？以及如何落地自动驾驶大模型？

这块聊了很多自动驾驶大模型的工作，像经典的DriveGPT4、OpenDriveLab的DriveLM，当然也离不开理想自己的工作DriveVLM，估计也是他们快慢双系统借鉴的核心算法。实战这块我自己跑过DriveLM，面试官还是比较感兴趣的，这块深入聊聊蛮多算法细节。

目前来看国内端到端的技术路线已经明确：就是端到端+大模型！据我了解，除了理想，像长安/小鹏都宣称大模型上车了。智能座舱和具身智能这块也是当下非常火爆的方向。未来大模型除了指导快系统外，像数据挖掘、标注等等应该都值得进一步探索。

#极氪副总裁加入新公司

据悉，极氪副总裁、电子电气架构负责人谢保军离职之后，加入了奇瑞旗下的大卓科技。

大卓智能在组织变化上并不止谢保军的加入。今年大卓智能的管理团队的架构发生了调整变化。原本是谷俊丽为CEO，曹光植为CTO，一个负责整体统筹管理，一个负责技术开发。而今年原奇瑞内部自动驾驶技术中心负责人张晓洪被派到大卓智能，担任COO，负责智驾产品技术、项目开发工作。

张晓洪是华为背景出身，曾担任华为汽车BU智能驾驶产品项目群总监，于2021年加入蔚来，后又从蔚来跳槽到奇瑞。

大卓智能人事变化的背后是奇瑞在智驾上着急追赶。在今年，奇瑞董事长尹同跃在多个场合对大卓智能董事长高新华表示，要把智驾水平追上去做到头部阵营。

其实着急的不止是奇瑞，今年各家传统主机厂都在密集的调整动作。有的在切换智驾供应商体系，把量产干的拉跨的踢掉，换上技术实力强的，最典型的是集体”投华“拥抱华为；有的在对自研团队调整，烧钱但不干出东西的自研负责人被调整。

11月份的广州车展上，在奇瑞的展台上尹总接待了探访的何小鹏。当着何小鹏的面，尹总叮嘱高新华，在智能化上要追赶上何小鹏的背影。

尹总和何小鹏聊了聊智驾。尹总称赞小鹏的智能化做的太棒了，又调侃的说何小鹏“你们是年轻精英，把我们这些老汉逼得也要开始搞人工智能了”。

何小鹏也给尹总分享了一个“小经验”，智驾直播一定要BOSS亲自上，这样才能使技术团队有足够的压力全力以赴，才会把智驾体验做好。

对于传统主机厂做智驾这个事来说，何小鹏的话点出了关键。老大就得像普通用户一样去体验测试，才能摸清真实技术水平。而不是只听汇报，汇报这个事本来就容易层层注水，就容易陷入“信息茧房”处境之中。

无论是采用供应商还是自研方案，做的到底怎么样，拉出来溜溜就知道了。就像尹总说的，找个最难开的城市、最拥堵的时间段，来一次“小考”。

#MagicDriveDiT

暴力提升生成质量40%！

扩散模型的快速发展极大地改善了视频合成，特别是在可控视频生成方面，这对自动驾驶等应用至关重要。然而，现有的方法受到可扩展性和控制条件集成方式的限制，无法满足自动驾驶应用对高分辨率和长视频的需求。本文介绍了一种基于DiT架构的新方法MagicDriveDiT，并解决了这些挑战。我们的方法通过流匹配增强了可扩展性，并采用渐进式训练策略来管理复杂的场景。通过结合时空条件编码，MagicDriveDiT实现了对时空延迟的精确控制。综合实验表明，它在生成具有更高分辨率和更多帧的逼真街道场景视频方面具有优越的性能。Magic-DriveDiT显著提高了视频生成质量和时空控制，扩大了其在自动驾驶各种任务中的潜在应用。

项目主页：https://gaoruiyuan.com/magicdrivedit/

总结来说，本文的主要贡献如下：

本文设计了一个高效的框架MagicDriveDiT，利用渐进式引导来实现高质量的高分辨率长视频生成。
为目标位置、道路语义和相机轨迹开发了新的时空控制，同时保持了多帧、多视图的一致性。
MagicDriveDiT通过混合分辨率和持续时间训练，从图像到视频生成都得到了很好的推广，具有外推能力，大大超过了之前工作中的分辨率和帧数。

#DATAP-SfM

动态感知跟踪一切！

标题：DATAP-SfM: Dynamic-Aware Tracking Any Point for Robust Structure from Motion in the Wild

作者：Weicai Ye, Xinyu Chen, Ruohao Zhan, Di Huang, Xiaoshui Huang, Haoyi Zhu, Hujun Bao, Wanli Ouyang, Tong He, Guofeng Zhang

机构：Zhejiang University、Shanghai AI Laboratory

导读
引言

从单目视频中估计运动相机的姿态在计算机视觉和机器人学领域发挥着基础性作用，在自动驾驶、增强现实等多个领域均有应用。在日常随意拍摄的视频中，相机通常处于移动状态，而复杂的前景运动，包括人物、车辆和其他移动物体，占据了视频帧的大部分。这给在此类场景中实现稳健的相机姿态估计带来了重大挑战。

传统的间接SLAM或SfM方法通过提取和匹配高质量特征点，并利用非线性优化技术来估计相机姿态和重建三维点云，从而最小化几何重投影误差。相比之下，直接SLAM或SfM方法通过优化光度误差（假设视频外观一致）来进行相机跟踪。虽然这些方法已显示出良好效果，但在包含大量动态物体的场景中，它们往往难以实现稳健定位。这一局限性在动态物体常见的真实场景中尤为明显。

为解决这一问题，一些视觉里程计或SLAM方法使用语义或几何先验来减轻由特定类型潜在动态物体（如人或车辆）引起的干扰。然而，在实际自然场景中，一些看似静止的物体也可能呈现运动状态，例如水杯被拿起或移动，或柳枝在风中摇曳。这使得上述依赖语义约束的方法失效。另一方面，一些端到端的视觉里程计或SLAM方法通过训练数据隐式建模场景物体的复杂运动，并通过关注静态区域来估计相机姿态。然而，这些方法在推广到野外视频时面临挑战。

最近，ParticleSfM提出了一种方法，该方法涉及构建点轨迹，应用轨迹运动分割以解决动态轨迹干扰，并执行全局捆集调整以改进姿态估计。该方法在泛化性能和姿态估计准确性方面显示出前景，但也存在明显局限性：（1）基于成对光流匹配的点轨迹构建无疑会带来长期累积误差。（2）使用单目姿态估计进行运动分割存在尺度模糊问题。

基于最近表现突出的二维点跟踪方法，如TAPIR、CoTracker和Omniotion，我们提出了一种新颖的方法，称为动态感知跟踪任意点（Dynamic-Aware Tracking Any Point，DATAP），通过利用一致的视频深度估计和长期点跟踪来解决上述问题。具体而言，DATAP是一种以滑动窗口方式运行的Transformer网络。它估计视频中采样点的点跟踪和可见性。Transformer网络融合了自注意力机制和交叉注意力机制，将滑动窗口内的每条轨迹视为一个整体。这有助于利用轨迹特征之间的相关性，并促进轨迹内和轨迹间的信息交换。在滑动窗口内，每个查询点的轨迹最初设置为0。网络将通过Transformer的迭代逐步细化这些初始估计。随后的重叠窗口将基于前一个窗口的细化预测来初始化轨迹和可见性，并更新新帧的轨迹和可见性。

为估计轨迹的动态运动标签，我们在跟踪特征中融入了多层感知层。这一附加层预测动态运动的概率，类似于预测可见性的方式。这样做旨在解决仅使用二维点跟踪进行动态预测时可能出现的模糊性。受ParticleSfM启发，我们利用深度信息并设计了一个Transformer模块，以消除二维点运动分割中的模糊性。考虑到单目视频单视图深度估计所带来的尺度模糊问题，我们建议使用一致的视频深度估计进行深度初始化。

结合DATAP，我们构建了一个简洁、优雅且稳健的野外运动恢复结构（Structure from Motion，SfM）流程。在MPI Sintel数据集和TUM RGBD动态序列上的实验表明，我们的动态感知点跟踪方法结合SfM可有效提升动态场景中相机定位的准确性。我们还在如DAVIS等野外随意拍摄的视频上验证了该方法，证明了其在复杂挑战性场景中的定位鲁棒性。

3. 效果展示

给定随意的视频，我们的方法可以获得平滑的摄像机轨迹和动态场景的完整点云。从上到下:视频样本、来自COLMAP、ParticleSfM和我们的结果。

MPI Sintel数据集上摄像机姿态估计的定性结果。我们的方法优于现有的SOTA方法。

4. 主要贡献

我们的贡献总结如下：

• 我们提出了一种新颖的动态感知跟踪任意点（DATAP）网络，能够以滑动窗口的方式同时估计点跟踪、可见性和动态性，并利用一致的视频深度先验进一步提升性能。

• 结合DATAP和全局捆集调整，我们提出了一种简洁、优雅且稳健的流程，可从随意拍摄的单目视频中生成平滑的相机轨迹和密集的点云。推荐课程：单目深度估计方法：算法梳理与代码实现。

5.方法

我们的目标是通过随意拍摄的单目视频实现平滑的相机轨迹和一致的视频深度。为此，我们提出了一种动态感知跟踪任意点方法，即DATAP，以估计视频中点的轨迹及其可见性和动态特性。结合DATAP，我们正式提出了一个简洁、优雅且稳健的野外运动恢复结构流程。图2概述了我们的方法流程。

6. 实验结果

MPI Sintel数据集是一个合成自然视频序列，包含23个复杂且具有挑战性的场景，如高度动态场景、运动模糊场景、非刚性运动场景等。遵循ParticleSfM的方法，我们移除了对评估单目相机位姿无效的序列，如静态相机运动序列，留下14个序列用于比较。我们将本文方法与经典的特征点SfM方法COLMAP及其变体，以及最新的深度学习方法进行了比较。表2中的定量位姿估计结果表明，COLMAP及其变体只能在某些序列上进行位姿估计。而基于学习的最先进方法，如DROID-SLAM在动态场景中表现不佳，难以获得准确的相机轨迹。虽然最近的ParticleSfM在大多数场景中表现良好，但本文基于动态感知点跟踪的SfM方法远优于它们，在所有数据集上的绝对轨迹误差（ATE）提高了19.37%，在COLMAP子集上的ATE提高了28.57%。

TUM RGBD数据集是评估不同挑战下SLAM或SfM算法性能的基准。为了评估本文方法在动态室内场景中的性能，我们选择了9个包含动态对象（如移动的人）的序列。由于ParticleSfM在动态场景中通常表现更好，我们选择ParticleSfM作为主要比较对象。通过运行ParticleSfM的开源代码，实验表明，ParticleSfM在TUM的9个数据集中会出现系统失败，而本文方法能够解算出相机位姿，这显示了本文方法的鲁棒性。在ParticleSfM的子集中，本文方法在ATE上提高了26.62%。

DAVIS数据集是评估视频对象分割和跟踪（无真实相机位姿）的基准。它包含许多挑战，如多对象遮挡、复杂运动、运动模糊等。为了进一步证明本文方法的泛化能力，我们从DAVIS数据集中选择了15个序列，并定性可视化了本文方法的效果。实验表明，COLMAP只能运行DAVIS的15个序列中的10个，而ParticleSfM只能运行8个序列。它们难以获得满意的位姿估计。我们还在图5中展示了更多的定性结果。

7. 总结 & 局限性

本文提出了一种具有动态感知点跟踪的结构从运动（SfM）方法，用于准确的位姿估计。本文方法能够为野外随意拍摄的视频中的动态场景获得平滑的相机轨迹和完整的点云，并且在动态场景中优于现有的SfM和SLAM方法。

局限性。尽管本文方法能够在动态场景中进行鲁棒的位姿估计和一致的视频深度估计，但它不能像实时SLAM系统那样运行，即使我们采用了基于滑动窗口的点跟踪机制。开发一种高效的动态感知点跟踪方法是一个有前景的方向。探索大规模且多样的互联网视频来训练点跟踪方法将进一步提高其鲁棒性。我们将其留作未来工作。

#锐评Were RNNs all we needed

在ICLR openreview主持正义

TL;DR: 实在受不了傻13工作还有眼瞎reviewer给8分，并且作者在rebuttal阶段全程嘴硬，遂直接在Openreview贴脸开大，正义制裁：https://openreview.net/forum?id=GrmFFxGnOR&noteId=2QR0ZJjvCm

如果ICLR变成了一个bad会议，那么你就去建设它 ——sonta

Were RNNs all we needed? 受到了毫无相关技术背景的小编们的无脑吹捧和热议

机器之心：图灵奖得主Yoshua Bengio新作：Were RNNs All We Needed?

量子位：Bengio精简了传统RNN，性能可与Transformer媲美

新智元：RNN回归！Bengio新作大道至简与Transformer一较高下

这篇文章核心思路就是把hidden to hidden state之间的nonlinear dependency全部扔掉，然后RNN就变成了一个Linear RNN，可以用associative scan的思路来并行训练

然而这个idea早就在linear RNN领域里玩烂了。其中ICLR '18最经典也最被低估的一篇工作 Parallelizing Linear Recurrent Neural Nets Over Sequence Length 里提到的Gated Impluse Linear Recurrent (GILR) layer几乎完全等价于minGRU.

我在之前也早有blog来理清这一系列的工作的发展

sonta：RNN最简单有效的形式是什么？
https://zhuanlan.zhihu.com/p/616357772

并且我NeurIPS '23 Spotlight的一个工作，HGRN，正是基于这个思路来进行的

Hierarchically Gated Recurrent Neural Network for Sequence Modeling
arxiv.org/abs/2311.04823

其中有一个审稿人锐评道：

https://openreview.net/forum?id=GrmFFxGnOR&noteId=ZLKbCUEU7B 同时也是所有审稿人里唯一很懂领域的人

作者的狡辩是：

Martin & Cundy (2018) focus on parallelizing linear RNNs and propose the GILR (Generalized Linear RNN) architecture. GILR is used as a linear surrogate for the hidden state dependencies of traditional LSTMs, allowing for parallelization. The resulting architecture GILR-LSTM retains much of the complexity of LSTMs but with parallelizability, resulting in a larger memory footprint due to the use of surrogate states.

这是十足的偷换概念：我们可以在上面的recurrent形式可以看到，GILR完全等价于minGRU。作者在用另外一个extension GILR-LSTM来混淆视听，狡辩道

Martin & Cundy (2018) focus on parallelizing linear RNNs and propose the GILR (Generalized Linear RNN) architecture. GILR is used as a linear surrogate for the hidden state dependencies of traditional LSTMs, allowing for parallelization. The resulting architecture GILR-LSTM retains much of the complexity of LSTMs but with parallelizability, resulting in a larger memory footprint due to the use of surrogate states. In contrast, our work takes a different approach by simplifying traditional RNN architectures rather than augmenting them

这种被审稿人按着捶还不认错，反过来混淆视听的做法真是一点b脸都不要了。此外，这篇文章的完成度低的令人发指，几乎没有稍微大一点的实验。对此，某图灵奖得主挂名的团队给的解释是：

我们穷的只能用P100辣。然而据我mila朋友的反应，mila内部有不少计算集群资源，并且这个一作的权限还不低。

而我们发表在一年前的HGRN就已经做了Billion level的language modeling的实验了。看不下去的我直接openreview发了个public comment:

提到了我们HGRN和之后一系列的work，并且重新提了minGRU和GILR的关系。作者依然用上面糊弄审稿人的做法来糊弄我，

并且解释道这篇的motivation是为了simplify existing architecture

变得新手友好，老少皆宜。

我哭笑不得，首先勒令他们解释跟GILR的区别，

你说的好，但是GILR=minGRU

并且痛批他们开倒车，把整个领域这一年的发展直接清零，梦回一年半前

大家辛辛苦苦发展了一年的领域，你直接倒回去了？

同时作者团队还在解释，不是他们博人眼球特意宣传，是大家自发进行的：

（内心OS：对对对，你们有这么大一个图灵奖得主挂名，标题起的这么大，可不得是一堆自干五来做宣传吗）

我的使命到此结束，等待AC和其他审稿人的正义制裁

结言

肉眼可见，ICLR ‘25 是一届特别糟糕的会议。主办方大聪明觉得把审稿人的池子放水，引入了一堆本来没有资格审稿的人加入审稿大军，那么每个审稿人的workload不就小了吗？这一大放水的结果可想而知，这么离谱的一篇工作，还有两个reviewer给出了8分和6分的高分，并且8分reviewer直呼novel，气的我反手一个public comment:

审稿workload变低了，但审稿质量离谱了，大家又得花更多的时间去处理不称职审稿人的意见，导致本届会议的discussion氛围感人，主办方直接延期rebuttal一周，让大家感受三周rebuttal的快乐，真是不戳呢（

同时，我发现审稿人对linear RNN的进展的了解真是少的令人发指，我一个一年前的starting point工作，被人重新包装了一遍还能受到一些好评。感觉提高自己工作的曝光度是一件非常重要的事情，教育community也是（不多说了，赶紧去写blog来系统的介绍自己这两年的工作了）