vln

【第四十三周】论文阅读《Planning with the Views via Scene Self-Exploration》本周我阅读了一篇关于视觉语言模型在三维空间中进行视角规划能力研究的论文。这项工作的核心问题是：当前的视觉语言模型能否像人一样，通过在三维环境中主动移动自己的“视角”（即眼睛的位置和朝向），逐步探索周围空间，最终定位到一个目标视角？

星光技术人

Enhancing End-to-End Autonomous Driving with Latent World Model- 论文ID：arXiv:2406.08481 - 作者：Yingyan Li, Lue Fan, Jiawei He, Yuqi Wang, Yuntao Chen, Zhaoxiang Zhang, Tieniu Tan - 机构：中国科学院自动化研究所 (CASIA), 模式识别国家重点实验室 (NLPR), 多模态人工智能系统国家重点实验室 (MAIS) - 发布时间：2024-06-12 (v1), 2025-02-28 (v2) - 会议/期刊：ICLR 2025 - 链接：[arXiv](h

视觉语言导航之人机交互主动对话导航新基准VL-LN Benchmark本文提出 IIGN 任务与 VL-LN 基准，首次系统研究具备主动对话能力的具身导航智能体如何在房屋级长程环境中通过"主动提问"解决指令歧义、提升实例定位精度。arxiv

VLN 领域首个双系统基础模型，三大基准 SOTA，重新定义导航技术上限！目录系统2：慢思考的“大脑”系统1：快行动的“小脑”System 2 的核心功能——从3D路径到2D路标的自动生成

视觉语言导航从入门到精通（四）本文是「视觉语言导航从入门到精通」系列的第四篇，介绍VLN领域的前沿方法和最新研究进展。VLN领域经历了三个主要发展阶段：

视觉语言导航从入门到精通（一）本文是「视觉语言导航从入门到精通」系列的第一篇，主要介绍VLN的基本概念、研究背景和发展历程。视觉语言导航（Vision-and-Language Navigation, VLN）是一个跨模态的具身智能任务，要求智能体（Agent）根据自然语言指令，在真实或模拟的3D环境中进行导航，最终到达目标位置。

视觉语言导航从入门到精通（二）本文是「视觉语言导航从入门到精通」系列的第二篇，详细介绍VLN领域的主流数据集和评估指标。R2R是VLN领域最经典、使用最广泛的benchmark数据集。

视觉语言导航从入门到精通（三）本文是「视觉语言导航从入门到精通」系列的第三篇，深入讲解VLN的核心模型架构和关键技术。VLN Agent 架构

LOVON——面向足式Open-Vocabulary的物体导航：LLM做任务分解、YOLO11做目标检测，最后L2MM将指令和视觉映射为动作(且解决动态模糊)因为项目需要(比如我们在做的两个展厅讲解订单)，近期我一直在研究VLN相关，有些工作哪怕暂时还没开源(将来可能会开源)，但也依然会解读，比如好处之一是构建完整的VLN知识体系，本文便是其中一例

NaVid——基于视频的VLM规划「视觉语言导航VLN」的下一步：含VLN-CE、MP3D的详解因为我司准备于25年7月底复现下NaVILA，而在研究NaVILA的过程中，注意到了这个NaVid故成此文

VLA 论文精读（十六）FP3: A 3D Foundation Policy for Robotic Manipulation这篇论文是2025年发表在arxiv上的一个3D VLA论文，稍微有一种大力出奇迹的感觉，3D感知部分将点云转到同一个坐标系下，然后用 Uni3D 进行编码；语言指令直接用 CLIP 输出不参与训练；整体模型还是需要大量的泛化场景进行预训练，然后针对不同的任务进行微调，但作者说微调后可以很好的泛化到不同场景以及物体上；

我是有底线的