【论文阅读】3D-VisTA:具身智能中统一多种下游任务的预训练Transformer模型

概述

本文发表于2023年。聚焦3D-Visual Language Grounding(视觉-语言接地),提出了一种用于3D视觉与文本对齐的已经预训练过的Transformer(1),并构建了首个用于3D-VL预训练的大规模3D场景-文本数据集scanscribe数据集(2)。scanscribe包括来自原有大型数据集scannet和3rscan数据集,并由gpt生成场景的描述。

3D-VisTA通过掩码语言/对象建模和场景-文本匹配,在ScanScribe上进行与训练。

引言

难点:大多数为3D视觉语言接地开发的模型仅仅专注于任务中的一两个(如仅关注视觉语言特征/视觉定位/密集captioning/问答/情景推理/语法学习),缺乏统一。

Dense Captioning:在一张图片(或视频帧)中,*同时定位多个区域(Region Proposals)并为每个区域生成独立的文字描述(caption)的任务。

涉及的3D-VL任务及其对应的数据集上的结果:

视觉接地(ScanRefer提升8.1%、Nr3D/Sr3D提升3.6%)

问答(ScanQA提升10.1%)

情境推理(SQA3D提升1.9%)

3D-VisTA

输入:场景点云+句子---(通过场景编码模块处理点云)--->文本/3D对象标记----->通过一个多模态融合模块进行融合,捕捉3D物体和文本之间的对应关系。

1. 场景编码

给定三维场景的点云 ,使用分割掩码将场景分解为对象

分割掩码获取方式:

(1)真实标签

(2)实例分割模型

对每个对象,采样1024个点,将其坐标归一化到单位球内。

然后将点云 输入得到PointNet++中,获取其点特征语义类别

组合点特征、语义类别、嵌入、三维位置,作为对象标记的表示,通过将物体令牌注入一个4层Transformer捕捉物体之间的交互。将物体的成对的空间关系明确编码到空间Transformer中。

2. 实验设置

epoch:30

batchsize:128

learning rate:1e-4

预热步数:3000,采用余弦衰减,AdamW优化器,β1=0.9 β2=0.98

相关推荐
人工智能培训12 小时前
具身智能如何让智能体理解物理定律?
人工智能·多模态学习·具身智能·ai培训·人工智能工程师·物理定律
人工智能培训2 天前
基于物理交互的具身智能决策框架设计
多模态学习·具身智能·企业ai转型·ai数字化转型
AI猫站长2 天前
快讯|清华&上海期智研究院开源Project-Instinct框架,攻克机器人“感知-运动”割裂核心难题;灵心巧手入选毕马威中国“第二届智能制造科技50”榜单
人工智能·机器人·苹果·具身智能·project·灵心巧手
人工智能培训4 天前
具身智能如何在保证安全的前提下高效探索学习?
语言模型·llm·数据采集·模型量化·多模态学习·具身智能·环境感知
AI猫站长4 天前
快讯|灵心巧手旗下钢琴机器人将组建“机器人F4”登陆央视迎春
人工智能·机器人·具身智能·灵心巧手·央视
杀生丸学AI4 天前
【世界模型】AI世界模型的两次物理大考(测评)
人工智能·扩散模型·具身智能·视频生成·世界模型·自回归·空间智能
feasibility.4 天前
多模态模型Qwen3-VL在Llama-Factory中断LoRA微调训练+测试+导出+部署全流程--以具身智能数据集open-eqa为例
人工智能·python·大模型·nlp·llama·多模态·具身智能
传说故事5 天前
【论文阅读】PROGRESSLM: 迈向VLM的Progress推理
论文阅读·具身智能
传说故事5 天前
【论文自动阅读】未来光流预测提升机器人控制与视频生成
人工智能·机器人·具身智能
传说故事5 天前
【论文阅读】Being-H0.5:规模化以人为中心的机器人学习以实现跨具身化泛化
论文阅读·学习·机器人·具身智能