技术栈

vln

nenchoumi3119
21 天前
论文阅读·人工智能·笔记·学习·vln
VLA 论文精读(十六)FP3: A 3D Foundation Policy for Robotic Manipulation这篇论文是2025年发表在arxiv上的一个3D VLA论文,稍微有一种大力出奇迹的感觉,3D感知部分将点云转到同一个坐标系下,然后用 Uni3D 进行编码;语言指令直接用 CLIP 输出不参与训练;整体模型还是需要大量的泛化场景进行预训练,然后针对不同的任务进行微调,但作者说微调后可以很好的泛化到不同场景以及物体上;