技术栈

vln

v_JULY_v
5 小时前
视觉语言导航·vln·navid·vln-ce·mp3d
NaVid——基于视频的VLM规划「视觉语言导航VLN」的下一步:含VLN-CE、MP3D的详解因为我司准备于25年7月底复现下NaVILA,而在研究NaVILA的过程中,注意到了这个NaVid故成此文
nenchoumi3119
3 个月前
论文阅读·人工智能·笔记·学习·vln
VLA 论文精读(十六)FP3: A 3D Foundation Policy for Robotic Manipulation这篇论文是2025年发表在arxiv上的一个3D VLA论文,稍微有一种大力出奇迹的感觉,3D感知部分将点云转到同一个坐标系下,然后用 Uni3D 进行编码;语言指令直接用 CLIP 输出不参与训练;整体模型还是需要大量的泛化场景进行预训练,然后针对不同的任务进行微调,但作者说微调后可以很好的泛化到不同场景以及物体上;