技术栈
vln
nenchoumi3119
12 小时前
论文阅读
·
人工智能
·
笔记
·
学习
·
vln
VLA 论文精读(十六)FP3: A 3D Foundation Policy for Robotic Manipulation
这篇论文是2025年发表在arxiv上的一个3D VLA论文,稍微有一种大力出奇迹的感觉,3D感知部分将点云转到同一个坐标系下,然后用 Uni3D 进行编码;语言指令直接用 CLIP 输出不参与训练;整体模型还是需要大量的泛化场景进行预训练,然后针对不同的任务进行微调,但作者说微调后可以很好的泛化到不同场景以及物体上;