当前位置：首页 > news >正文

VLN视觉语言导航基础

news 文章来源：https://blog.csdn.net/BigDavid123/article/details/145414272 2025/4/21 13:24:11

0 概述

视觉语言导航模型旨在构建导航决策模型 $π$ ，在 $t$ 时刻，模型能够根据指令 $W$ 、历史轨迹 $\tau=\{V_1,V_2,...,V_{t-1}\}$ 和当前观察 $V_t=\{P_t,R_t,N(V_t)\}$ 来决定下一步动作 $a_t$ ： $π(a_t|W,V_t,\tau)—>a_t$ 。模拟器随后执行智能体的动作并更新环境与智能体的状态 $\tau(s_t,a_t)->s_{t+1}$

$V ：节点$
$P_t：姿态信息$
$R_t：全景RGB图像$
$N(V_t)：可导航点$

任务类型：指令导向(R2R和R4R)、目标导向(REVERIR和SOON)、需求导向(DDN)

指令导向：指令导向的视觉语言导航任务侧重于智能体严格遵循给定的语言指令进行导航。这种任务要求智能体能够理解复杂的自然语言指令，并将其转化为导航动作。
目标导向：目标导向的视觉语言导航任务要求智能体根据给定的目标进行导航。在这种任务中，智能体需要理解目标的语义信息，并在环境中搜索与目标相匹配的物体。
需求导向：需求导向的视觉语言导航任务是一种更高级的形式，它要求智能体根据用户的抽象需求进行导航。与前两种任务不同，需求导向导航不依赖于特定的物体或目标，而是需要智能体理解用户的需求并找到满足这些需求的物体或位置。

场景类型：室内、室外、空中

室内场景：室内视觉语言导航主要关注于家庭或办公环境内的导航。智能体需要理解自然语言指令，并在室内环境中找到正确的路径。室内环境通常较为复杂，包含多个房间和各种家具，因此对智能体的空间理解能力要求较高。例如，Room-to-Room数据集
室外场景：室外视觉语言导航涉及到更开放的环境，如街道、公园等。在这种场景下，智能体不仅需要理解指令，还需要处理更复杂的空间关系和可能的遮挡物。室外环境的动态性，如行人和车辆的移动，也会增加导航的难度
空中：空中视觉语言导航是一个较新的研究领域，主要针对无人机（UAV）的导航任务。与地面导航不同，空中导航需要考虑飞行高度和更复杂的空间关系。例如，AerialVLN是一个针对无人机的视觉语言导航任务，它要求智能体根据自然语言指令在三维空间中进行导航，这涉及到对城市级场景的理解和操作。

1 测试基准

1.1 模拟器与数据集

在这里插入图片描述

1.2 数据集简介

VLN数据集提供了自然语言指令 $W$ 及其相应的真实轨迹 $\tau$ ，使其适合于监督学习和强化学习

R2R：

Anderson 等人首次提出了在离散室内环境中遵循指令进行导航的任务，即 R2R (Room-to-Room)。R2R 任务基于 Matterport3D 数据集构建，该数据集包含 90 个房屋的真实照片，共计 10,567 张全景图。这些环境被表示为一系列通过边连接的可导航点。在 R2R 任务中，智能体需根据描述路线的语言指令，从指定的初始位置导航至目标位置。智能体必须遵循指令，执行一系列离散动作（如转弯、前进），以到达目标位置，并在到达后执行“停止”动作以完成任务。

R4R：

Jain 等人通过将两个相邻的轨迹（尾部到头部）连接起来，扩展了 R2R 任务，从而生成更长的指令和轨迹。这些路径更加依赖于指令的描述，因为它们往往不是起点和终点之间的最短路径。

CVDN：

在现实世界的导航中，人们通常使用自然语言进行多轮沟通。Thomason 等人收集了 CVDN 数据集，以模拟真实家庭环境中人与人之间的对话过程，并定义了基于对话历史进行导航并搜索目标的任务。

REVERIE：

在现实环境下，智能体的导航通常是需求驱动的，经常需要到达指定地点并找到相关物体。因此，Qi 等人和 Zhu 等人分别通过 REVERIE 和 SOON 数据集进一步提出了远程对象定位导航任务。在 REVERIE 数据集中，每个视觉观察的全景图都标记有预定义的对象框，智能体必须在导航路径的终点选择正确的对象。

SOON：

而在实际应用中，人类通常给出高层次的目标导向指令，而非详尽的逐步指导。基于这一特点，SOON 数据集提出了一种基于视觉的场景定位目标导航方法，智能体被指示在房屋内寻找详细描述的目标对象。

AerialVLN：

为了解决无人机在复杂城市环境中进行导航的问题，AerialVLN 数据集被提出。该数据集包含 10 个城市的 100 个不同的飞行场景，每个场景都由无人机在飞行过程中拍摄的全景图像组成。这些图像被标记为包含多个对象，并且每个对象都与一个自然语言描述相关联。智能体的任务是根据这些描述，在飞行过程中找到并识别相应的对象。

1.3 评估指标

参考文章：视觉语言导航入门必看
（1）路径长度PL
（2）导航误差d
（3）导航成功率SR
（4）Oracle Success Rate（OSR）：衡量导航路径上任意点到目标点的距离是否在预定义的阈值范围内
（5）基于路径加权的成功率SPL
$\cdot \frac{|R|}{\max \{|P|,|R|\}}$
（6）长度加权的覆盖分数CLS:生成路径和参考路径的一致性问题
$\mathrm{PC}(P, R)=\frac{1}{|R|} \sum_{r \in R} \exp \left(-\frac{d(r, P)}{d_{t h}}\right)$
路径长度分数则是评价生成路径和参考路径的一致性程度，进而来约束生成路径的长度
$LS(P,R)=\frac{PC(P,R)*PL(R)}{PC(P,R)*PL(R)+PC(P,R)*PL(R)-PL(P)}$
（7）基于动态时间规整加权成功率nDTW：通过动态时间弯曲评估由成功率加权的预测路径P和参考路径R的时空相似性，对偏离参考路径的行为进行软性惩罚，并考虑路径节点的顺序
在这里插入图片描述
（8）远程定位成功率RGS：智能体定位到与目标语义标签相对应的实例时，才视为成功

（9）长度加权的远程定位成功率RGSPL：综合考虑远程定位成功的效率与经历的路径长度

2 典型模型与开源代码

（1）传统Seq2seq方法

使用基于注意力机制的 LSTM 的序列到序列模型, 并结合 “学生自学”的训练方法, 对于先前的分布采用动作输出序列预测下一步动作,使用交叉熵损失函数, 学习标注数据的特征信息。

Following High-level Navigation Instructions on a Simulated Quadcopter with Imitation Learning (https://github.com/lil-lab/drif)

（2）基于数据增强方法

专业人员标注的指令不仅成本高, 且数量十分有限。因此, 数据稀缺是视觉语言导航中的先天问题,不仅使得学习跨模态匹配更加困难, 还在很大程度上限制了模型的性能。当前很多领域的研究已经证明了数据增强的有效性, 特别是提升模型的性能有很大帮助。

Speaker-Follower Models for Vision-and-Language Navigation (http://ronghanghu.com/speaker_follower)

（3）基于辅助目标方法

辅助推理任务对于提高视觉语言导航任务中智能体的泛化能力和鲁棒性至关重要，它们通过提供额外的训练信号来增强模型对环境的理解，使其能够更好地利用语义信息进行决策，从而提升导航准确性和效率。

Self-Monitoring Navigation Agent via Auxiliary Progress Estimation (https://github.com/chihyaoma/selfmonitoring-agent)

（4）基于拓扑图方法

拓扑图在视觉语言导航中至关重要，它支持全局路径规划，提高探索效率，增强环境记忆，并促进自然语言指令与视觉场景的有效对接，使智能体能在复杂环境中准确导航至目标位置。

Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation (https://cshizhe.github.io/projects/vln_duet.html)

（5）基于大模型方法

大模型能处理多模态输入，执行零样本学习，展现高级规划和推理能力。这些模型通过理解复杂的导航指令和环境，提供强大的决策支持，增强任务的泛化性，并能生成高质量的导航指令，从而提升导航性能和可解释性。

NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models (https://github.com/GengzeZhou/NavGPT)

VLN视觉语言导航基础

0 概述

1 测试基准

1.1 模拟器与数据集

1.2 数据集简介

1.3 评估指标

2 典型模型与开源代码

相关文章：

VLN视觉语言导航基础

4 Hadoop 面试真题

java练习（2）

vscode命令面板输入 CMake:build不执行提示输入

Java中对消息序列化和反序列化并且加入到Spring消息容器中

FFmpeg源码：av_base64_decode函数分析

【后端面试总结】mysql的group by怎么用

计算机视觉和图像处理

一文读懂Python之random模块（31）

p1044 栈

吴恩达深度学习——超参数调试

SQL NOW() 函数详解

【JAVA基础】双亲委派

刷题记录 HOT100回溯算法-6：79. 单词搜索

JavaScript系列（52）--编译优化技术详解

Ollama+DeepSeek本地大模型部署

在 WSL2 中重启 Ubuntu 实例

【ts + java】古玩系统开发总结

机器学习周报-文献阅读

LabVIEW微位移平台位移控制系统

fpga系列 HDL：XILINX Vivado ILA FPGA 在线逻辑分析

刷题记录贪心算法-2：455. 分发饼干

Android --- CameraX讲解

ElasticSearch view

list的使用，及部分功能的模拟实现（C++）

联想Y7000+RTX4060+i7+Ubuntu22.04运行DeepSeek开源多模态大模型Janus-Pro-1B+本地部署

[Spring] Gateway详解

音叉模态分析

BW AO/工作簿权限配置

C++ 字母大小写转换两种方法统计数字字符的个数