技术栈
vln
深蓝学院
3 天前
导航
·
具身智能
·
vln
VLN 领域首个双系统基础模型,三大基准 SOTA,重新定义导航技术上限!
目录系统2:慢思考的“大脑”系统1:快行动的“小脑”System 2 的核心功能——从3D路径到2D路标的自动生成
Robot侠
9 天前
人工智能
·
深度学习
·
transformer
·
rag
·
视觉语言导航
·
vln
视觉语言导航从入门到精通(四)
本文是「视觉语言导航从入门到精通」系列的第四篇,介绍VLN领域的前沿方法和最新研究进展。VLN领域经历了三个主要发展阶段:
Robot侠
12 天前
网络
·
人工智能
·
microsoft
·
llm
·
vln
视觉语言导航从入门到精通(一)
本文是「视觉语言导航从入门到精通」系列的第一篇,主要介绍VLN的基本概念、研究背景和发展历程。视觉语言导航(Vision-and-Language Navigation, VLN) 是一个跨模态的具身智能任务,要求智能体(Agent)根据自然语言指令,在真实或模拟的3D环境中进行导航,最终到达目标位置。
Robot侠
12 天前
开发语言
·
人工智能
·
python
·
llm
·
vln
视觉语言导航从入门到精通(二)
本文是「视觉语言导航从入门到精通」系列的第二篇,详细介绍VLN领域的主流数据集和评估指标。R2R是VLN领域最经典、使用最广泛的benchmark数据集。
Robot侠
13 天前
llm
·
transformer
·
vln
·
multi-modal llm
视觉语言导航从入门到精通(三)
本文是「视觉语言导航从入门到精通」系列的第三篇,深入讲解VLN的核心模型架构和关键技术。VLN Agent 架构
v_JULY_v
5 个月前
yolo11
·
视觉语言导航
·
vln
·
lovon
LOVON——面向足式Open-Vocabulary的物体导航:LLM做任务分解、YOLO11做目标检测,最后L2MM将指令和视觉映射为动作(且解决动态模糊)
因为项目需要(比如我们在做的两个展厅讲解订单),近期我一直在研究VLN相关,有些工作哪怕暂时还没开源(将来可能会开源),但也依然会解读,比如好处之一是构建完整的VLN知识体系,本文便是其中一例
v_JULY_v
5 个月前
视觉语言导航
·
vln
·
navid
·
vln-ce
·
mp3d
NaVid——基于视频的VLM规划「视觉语言导航VLN」的下一步:含VLN-CE、MP3D的详解
因为我司准备于25年7月底复现下NaVILA,而在研究NaVILA的过程中,注意到了这个NaVid故成此文
nenchoumi3119
8 个月前
论文阅读
·
人工智能
·
笔记
·
学习
·
vln
VLA 论文精读(十六)FP3: A 3D Foundation Policy for Robotic Manipulation
这篇论文是2025年发表在arxiv上的一个3D VLA论文,稍微有一种大力出奇迹的感觉,3D感知部分将点云转到同一个坐标系下,然后用 Uni3D 进行编码;语言指令直接用 CLIP 输出不参与训练;整体模型还是需要大量的泛化场景进行预训练,然后针对不同的任务进行微调,但作者说微调后可以很好的泛化到不同场景以及物体上;
我是有底线的