技术栈
vln
v_JULY_v
17 天前
yolo11
·
视觉语言导航
·
vln
·
lovon
LOVON——面向足式Open-Vocabulary的物体导航:LLM做任务分解、YOLO11做目标检测,最后L2MM将指令和视觉映射为动作(且解决动态模糊)
因为项目需要(比如我们在做的两个展厅讲解订单),近期我一直在研究VLN相关,有些工作哪怕暂时还没开源(将来可能会开源),但也依然会解读,比如好处之一是构建完整的VLN知识体系,本文便是其中一例
v_JULY_v
22 天前
视觉语言导航
·
vln
·
navid
·
vln-ce
·
mp3d
NaVid——基于视频的VLM规划「视觉语言导航VLN」的下一步:含VLN-CE、MP3D的详解
因为我司准备于25年7月底复现下NaVILA,而在研究NaVILA的过程中,注意到了这个NaVid故成此文
nenchoumi3119
4 个月前
论文阅读
·
人工智能
·
笔记
·
学习
·
vln
VLA 论文精读(十六)FP3: A 3D Foundation Policy for Robotic Manipulation
这篇论文是2025年发表在arxiv上的一个3D VLA论文,稍微有一种大力出奇迹的感觉,3D感知部分将点云转到同一个坐标系下,然后用 Uni3D 进行编码;语言指令直接用 CLIP 输出不参与训练;整体模型还是需要大量的泛化场景进行预训练,然后针对不同的任务进行微调,但作者说微调后可以很好的泛化到不同场景以及物体上;