vln

深蓝学院3 天前
导航·具身智能·vln
VLN 领域首个双系统基础模型,三大基准 SOTA,重新定义导航技术上限!目录系统2:慢思考的“大脑”系统1:快行动的“小脑”System 2 的核心功能——从3D路径到2D路标的自动生成
Robot侠9 天前
人工智能·深度学习·transformer·rag·视觉语言导航·vln
视觉语言导航从入门到精通(四)本文是「视觉语言导航从入门到精通」系列的第四篇,介绍VLN领域的前沿方法和最新研究进展。VLN领域经历了三个主要发展阶段:
Robot侠12 天前
网络·人工智能·microsoft·llm·vln
视觉语言导航从入门到精通(一)本文是「视觉语言导航从入门到精通」系列的第一篇,主要介绍VLN的基本概念、研究背景和发展历程。视觉语言导航(Vision-and-Language Navigation, VLN) 是一个跨模态的具身智能任务,要求智能体(Agent)根据自然语言指令,在真实或模拟的3D环境中进行导航,最终到达目标位置。
Robot侠12 天前
开发语言·人工智能·python·llm·vln
视觉语言导航从入门到精通(二)本文是「视觉语言导航从入门到精通」系列的第二篇,详细介绍VLN领域的主流数据集和评估指标。R2R是VLN领域最经典、使用最广泛的benchmark数据集。
Robot侠13 天前
llm·transformer·vln·multi-modal llm
视觉语言导航从入门到精通(三)本文是「视觉语言导航从入门到精通」系列的第三篇,深入讲解VLN的核心模型架构和关键技术。VLN Agent 架构
v_JULY_v5 个月前
yolo11·视觉语言导航·vln·lovon
LOVON——面向足式Open-Vocabulary的物体导航:LLM做任务分解、YOLO11做目标检测,最后L2MM将指令和视觉映射为动作(且解决动态模糊)因为项目需要(比如我们在做的两个展厅讲解订单),近期我一直在研究VLN相关,有些工作哪怕暂时还没开源(将来可能会开源),但也依然会解读,比如好处之一是构建完整的VLN知识体系,本文便是其中一例
v_JULY_v5 个月前
视觉语言导航·vln·navid·vln-ce·mp3d
NaVid——基于视频的VLM规划「视觉语言导航VLN」的下一步:含VLN-CE、MP3D的详解因为我司准备于25年7月底复现下NaVILA,而在研究NaVILA的过程中,注意到了这个NaVid故成此文
nenchoumi31198 个月前
论文阅读·人工智能·笔记·学习·vln
VLA 论文精读(十六)FP3: A 3D Foundation Policy for Robotic Manipulation这篇论文是2025年发表在arxiv上的一个3D VLA论文,稍微有一种大力出奇迹的感觉,3D感知部分将点云转到同一个坐标系下,然后用 Uni3D 进行编码;语言指令直接用 CLIP 输出不参与训练;整体模型还是需要大量的泛化场景进行预训练,然后针对不同的任务进行微调,但作者说微调后可以很好的泛化到不同场景以及物体上;
我是有底线的