大白话讲UniVLA

核心是让机器人能更灵活、更高效地学会各种任务,还能在不同机器人、不同场景间轻松"迁移能力",不用像以前那样依赖大量标注好的数据。

1. 先说说以前的机器人政策(控制方法)有啥麻烦?

以前想让机器人干活(比如抓东西、导航),得给它喂大量"带标注的数据"------比如明确告诉它"这步该动机械臂、那步该转摄像头"。而且这些方法有个大问题:

  • 只能适配特定机器人(比如训练好的机械臂,换个型号就没用了);
  • 场景一换就歇菜(比如在实验室练会了抓杯子,到厨房光线变了、多了其他东西,就不会了);
  • 想扩大数据规模很难(网上有很多机器人视频、人类干活的视频,但因为没有"动作标注",没法直接用)。

2. UniVLA是怎么解决这些问题的?

它的核心思路是:先学一套"通用的隐藏动作语言",再用这套"语言"训练机器人,最后简单调整就能适配不同机器人/场景。具体分三步:

第一步:学"任务相关的隐藏动作"(不用标注!)

从大量视频(比如机器人干活视频、人类做饭/收拾的视频)里,自动提取出"对完成任务有用的动作",过滤掉没用的干扰(比如摄像头晃了、旁边有人走过)。

  • 怎么过滤?用了两个小技巧:一是参考"语言指令"(比如"把杯子放桌上",就盯着和"放杯子"相关的动作);二是用现成的图像识别工具(DINOv2),聚焦物体和关键位置(比如机械臂末端、杯子),不看无关背景。
  • 还把这些动作"压缩成离散的小单元"(类似语言里的"单词"),方便后续学习。
第二步:训练"通用政策"(会看、会听、会规划)

用第一步得到的"隐藏动作单元",训练一个"视觉-语言-动作"结合的模型。这个模型能:

  • 看场景(比如摄像头拍的画面)、听指令(比如"扫地");
  • 规划出下一步该用哪个"隐藏动作单元"------而且不管是哪种机器人、哪种场景,规划逻辑都通用。
  • 关键是:训练成本极低!比之前的主流方法(OpenVLA)少用了1/20的计算资源,却跑得更好。
第三步:简单适配不同机器人(不用从头训!)

每个机器人的"动作方式"不一样(比如有的机械臂6个关节,有的7个),所以最后加一个"小解码器":把模型规划出的"隐藏动作单元",翻译成具体机器人能懂的"控制信号"(比如"关节转30度")。

  • 这个解码器很小(只有1000多万参数),不用大量数据,调一调就能用在新机器人上。

3. UniVLA到底行不行?实验结果很能打!

在多个任务上测试,都比以前的方法好:

(1)机器人抓东西/操作(LIBERO、CALVIN等 benchmark)
  • 在LIBERO测试里(比如"把碗放进抽屉""叠毛巾"),用全量数据训练的UniVLA平均成功率95.2%,比之前的OpenVLA(76.5%)高了近20%;哪怕只用少量数据(比如只学人类视频),也比OpenVLA好。
  • 面对复杂任务(比如多步操作"放杯子→关柜门"),优势更明显,因为它能聚焦"任务关键动作"。
(2)导航任务(比如室内找路)

在"Room2Room"测试里(按语言指令找目标位置),UniVLA的成功率47.1%,比OpenVLA(17.5%)高了近30%,甚至能和专门处理导航的模型(NaVid)打得有来有回------而且UniVLA只看当前画面,不用记历史画面,更高效。

(3)真实机器人测试(拿AgileX机械臂实测)

设计了4个真实任务:"放螺丝刀进柜子""用扫帚扫地""叠毛巾两次""叠杯子塔"。

  • 平均成功率81.7%,比OpenVLA(38.3%)高了40%多;尤其是需要"理解指令"的任务(比如按顺序叠杯子),成功率86.7%,而以前的方法只有6.7%。
  • 还能应对突发情况:比如光线变暗、桌上多了杂物、换了没见过的工具(比如用 marker 代替螺丝刀),成功率依然很高。

4. 总结:UniVLA的核心价值

  • 更灵活:能跨机器人、跨场景用,不用为每个新机器人/场景从头训;
  • 更高效:不用大量标注数据,能利用网上的视频,训练成本还低;
  • 更实用:在真实环境里表现稳定,能处理复杂任务和突发干扰。

未来还想优化的方向:比如让"隐藏动作"能自动适应不同任务难度,或者支持双机械臂、更灵活的机器人操作。

"隐藏动作单元"可以理解成机器人用来"思考动作"的"通用小模块"------它不是具体的"抬手""弯腰"这类实际动作,而是把各种复杂动作拆解、提炼出的"核心动作代码",专门解决机器人"学动作难、换场景难"的问题。

1. 先搞懂:为啥需要"隐藏动作单元"?

以前机器人学动作,得教它"具体指令"------比如对机械臂说"关节1转20度、关节2转15度",对导航机器人说"轮子转3秒、向左拐10度"。但问题来了:

  • 不同机器人"语言不通":机械臂的"转关节"指令,导航机器人根本听不懂;
  • 视频数据没法用:网上有很多机器人干活、人类做饭的视频,但没有标注"这步是转关节、那步是拐方向",这些数据就成了"废数据"。

所以研究者想:能不能搞一套"通用动作密码"?不管是哪种机器人、哪种动作,都能用这套"密码"描述------这就是"隐藏动作单元"的核心目的。

2. 文档里的"隐藏动作单元"到底是啥?

简单说,它是从大量视频里"自动提炼"出的、对完成任务有用的"动作小单元",有三个关键特点:

(1)不是"看得见的动作",是"抽象的动作代码"

比如"抓杯子"这个动作:

  • 实际动作可能是"机械臂伸过去→爪子收紧",或人类"手伸过去→手指合拢";
  • 隐藏动作单元不管"是机械臂还是人手",只提炼核心逻辑------"向目标物体移动→接触并固定物体",把这个逻辑变成一个"代码单元"(比如叫ACT_5)。
    就像语言里的"抓"这个词:不管是"用手抓""用夹子抓",核心都是"获取物体","抓"就是那个"通用词",隐藏动作单元就是动作里的"通用词"。
(2)能自动过滤"没用的干扰"

视频里总有很多无关信息:比如摄像头晃了一下、旁边有个球滚过、光线突然变亮------这些和"完成任务"没关系,但以前的模型会把它们当成"动作的一部分",学歪了。

而文档里的隐藏动作单元,会通过两个办法"去干扰":

  • 看"语言指令":比如指令是"抓杯子",就只盯着和"杯子""手/机械臂"相关的画面变化,忽略其他东西;
  • 用"图像识别工具"(DINOv2):专门聚焦物体和关键部位(比如机械臂末端、杯子),不看无关背景。
    最后提炼出的"单元",只包含"完成任务必须的动作逻辑",没有废话。
(3)是"离散的小模块",方便机器人"拼动作"

研究者把这些"动作代码"做成了"离散的单元库"------比如有16个单元,每个单元对应一个核心动作逻辑("移动到物体""拿起物体""放下物体"等)。

机器人规划动作时,不用想"每一步具体怎么动",只要从库里"选单元拼顺序"就行:比如"抓杯子放桌上",就是"选'移动到杯子'单元→选'拿起杯子'单元→选'移动到桌子'单元→选'放下杯子'单元"。

这种"拼单元"的方式,让机器人不管面对哪种任务、哪种场景,规划逻辑都通用。

3. 这个"单元"是怎么来的?文档里的方法很聪明

不是人工编的,是从视频里"自动学"的,分两步:

第一步:先学"没用的单元"(过滤干扰)

先用带语言指令的视频(比如"扫地"的视频+"扫地"指令)训练:让模型先学会"哪些画面变化是没用的"------比如扫地时"窗帘动了""影子变了",这些和"扫地"无关,就把它们编成"任务无关单元"。

第二步:再学"有用的单元"(聚焦任务)

把第一步学的"无关单元"固定住,让模型只盯着"和任务相关的画面变化"------比如扫地时"扫帚移动""垃圾被扫走",把这些核心变化编成"任务相关单元",也就是最终用的"隐藏动作单元"。

这样学出来的单元,精准又通用,不管是机器人扫地,还是人类扫地,都能用同一套单元描述。

4. 有了这个"单元",机器人能变多厉害?

最直接的好处是"灵活+省钱":

  • 跨机器人适配快:给新机器人加个"小解码器",把"隐藏动作单元"翻译成它能懂的指令(比如把"拿起物体"单元,翻译成"机械臂关节转30度"),不用从头训练;
  • 用数据更省:网上没标注的机器人视频、人类视频,都能用来学"隐藏动作单元",不用再花大价钱标注数据;
  • 复杂任务能搞定:比如"放杯子→关柜门"这种多步任务,机器人能按"单元顺序"一步步规划,不会漏掉关键动作。

比如文档里的实验:用"隐藏动作单元"训练的UniVLA,在"叠毛巾""放螺丝刀进柜子"这些任务上,成功率比以前的方法高30%多,还能应对"光线变暗""桌上多了杂物"这种突发情况------本质就是因为"隐藏动作单元"只抓核心,不被干扰带偏。

一、引言(I. INTRODUCTION,对应🔶1-8至🔶1-16)

这部分主要"提出问题+介绍解决方案",核心是说明现有机器人政策的不足,并引出本文的UniVLA框架。

  1. 现有方法的痛点
    • 依赖大量"带动作标注的数据"(比如明确标注"机械臂转30度"),无法利用网上海量无标注视频(如人类干活视频、不同机器人视频);
    • 只能适配单一机器人/场景(比如为Franka机械臂训的模型,换WidowX机械臂就失效),跨设备、跨场景的知识迁移能力差。
  2. 本文解决方案:UniVLA框架
    • 核心创新是"从视频中提取任务中心型隐藏动作"(不依赖标注),建立通用的动作空间;
    • 框架分三步:提取隐藏动作→训练通用政策→适配具体机器人;
    • 优势:计算成本低(仅为现有方法OpenVLA的1/20)、数据利用率高(能用上人类视频等异源数据)、泛化能力强。

这部分梳理了三类与本文相关的研究,明确UniVLA的定位和改进点:

  1. 视觉-语言-动作模型(VLA)
    • 现有方法(如RT-1、OpenVLA)虽能结合视觉、语言和动作,但都依赖"动作标注数据",无法规模化利用无标注视频;UniVLA则突破了这一限制,能从无标注视频中学动作。
  2. 跨设备学习
    • 过去的方法(如CrossFormer、ATM)需要手动对齐不同机器人的动作空间,或依赖大量标注数据;UniVLA用"隐藏动作"自动统一动作空间,不用手动调整,数据需求也更低。
  3. 隐藏动作学习
    • 现有方法(如Genie、LAPA)从视频学隐藏动作时,会把"摄像头晃动""无关物体移动"等干扰也学进去,影响政策效果;UniVLA则通过"语言指令+DINOv2特征"过滤干扰,只保留任务相关的动作。

三、方法(III. METHODOLOGY,对应🔶1-32至🔶1-57)

这是论文的核心技术部分,详细拆解UniVLA的三步实现流程:

1. 任务中心型隐藏动作学习(Sec. III-A,🔶1-34至🔶1-44)
  • 目标:从无标注视频中,提取"只和任务相关"的隐藏动作(过滤干扰)。
  • 两步训练:
    ① 第一步:用"语言指令+视频帧"训练,先学"任务无关动作"(如摄像头晃、背景物体动),把这些干扰编码成固定单元;
    ② 第二步:冻结第一步的"无关单元",专注学"任务相关动作"(如机械臂抓物体、人叠毛巾),用VQ-VAE把这些动作压缩成"离散隐藏动作单元"(类似动作"单词")。
  • 关键技术:用DINOv2提取图像特征,聚焦物体和关键部位(如机械臂末端),避免被像素级干扰(如光线、纹理)带偏。
2. 通用政策预训练(Sec. III-B,🔶1-45至🔶1-49)
  • 目标:训练一个"能看、能听、能规划"的通用模型,不管哪种机器人/场景,都能输出隐藏动作。
  • 实现:
    • 基于Prismatic-7B视觉-语言模型(VLM),扩展词汇表,把"隐藏动作单元"当成"特殊单词"(如ACT_1、ACT_2);
    • 模型输入:当前画面+语言指令+历史隐藏动作,输出下一步的隐藏动作单元;
    • 优势:保留原VLM的预训练知识,训练成本低(仅960 A100小时,是OpenVLA的1/20)。
3. 部署适配(Sec. III-C,🔶1-50至🔶1-57)
  • 目标:把通用模型的"隐藏动作",翻译成具体机器人能懂的"控制信号"(如关节角度、移动距离)。
  • 核心组件:
    ① 轻量级解码器:用多头注意力把"隐藏动作嵌入"和"视觉嵌入"结合,再线性投影到目标机器人的动作空间(仅10.8M参数,适配快);
    ② 历史动作利用:借鉴大语言模型的"链式推理",把上一步的隐藏动作当成输入,帮助模型应对长任务(如"放杯子→关柜门"),提升决策连贯性。

四、实验(IV. EVALUATIONS,对应🔶1-58至🔶1-139)

这部分通过多组实验验证UniVLA的效果,核心包括"主结果""隐藏动作分析""消融实验"三类:

1. 主结果(Sec. IV-A,🔶1-65至🔶1-118)
  • 覆盖三类任务,均验证UniVLA优于现有方法:
    ① 机械臂操作(LIBERO benchmark):全量数据训练的UniVLA平均成功率95.2%,比OpenVLA(76.5%)高18.7%;哪怕只用人类视频训练,也比OpenVLA好12.2%;
    ② 导航(Room2Room任务):成功率47.1%,比OpenVLA(17.5%)高29.6%,且不用记历史画面,更高效;
    ③ 真实机器人测试(AgileX Piper机械臂):平均成功率81.7%,比OpenVLA(38.3%)高43.4%,尤其在"叠杯子塔"等需要语义理解的任务上,成功率达86.7%(OpenVLA仅26.7%)。
2. 隐藏动作分析(Sec. IV-B,🔶1-121至🔶1-128)
  • 定性分析:不同视频(如机器人抓东西、人类捡东西)中,相同隐藏动作单元对应"语义一致的动作",证明隐藏动作的通用性;
  • 定量分析:用"任务相关隐藏动作"训练的模型,比用"任务无关动作"或其他方法(如Genie)的模型,成功率高10%-30%,证明"过滤干扰"的重要性。
3. 消融实验(Sec. IV-C,🔶1-129至🔶1-138)
  • 验证关键设计的必要性:
    ① 数据 scalability:加入更多异源数据(如人类视频、不同机器人数据),UniVLA性能持续提升,尤其在真实场景中,分数提高0.58;
    ② 解码器设计:本文的"视觉辅助解码器"比传统"自回归解码器",在长任务(LIBERO-Long)上成功率高42.1%;
    ③ 历史动作:加入历史隐藏动作后,长任务(LIBERO-Long)和导航(R2R)的成功率分别提高3.9%和16.5%。

五、结论与未来工作(V. CONCLUSION + VI. LIMITATIONS AND FUTURE WORK,🔶1-140至🔶1-146)

1. 结论(Sec. V)
  • 总结UniVLA的核心贡献:提出"任务中心型隐藏动作",实现跨设备、跨场景的通用机器人政策;训练成本低、数据利用率高、泛化能力强,在操作、导航、真实场景中均达SOTA(当前最佳)。
2. 局限性与未来方向(Sec. VI)
  • 现有局限:隐藏动作的"颗粒度"固定(比如都是1秒一个单元),可能不适合所有任务;目前只测了单臂机器人,没测双臂或灵巧手;
  • 未来计划:让隐藏动作颗粒度"自适应调整";扩展到双臂/灵巧手;结合"世界模型"(预测未来画面)提升规划能力;用人类视频的隐藏动作做"零样本迁移"(不用训练直接适配新任务)。
相关推荐
资源开发与学习2 小时前
从0到1,LangChain+RAG全链路实战AI知识库
前端·人工智能
后端小肥肠2 小时前
小白想做 10w + 家宴美食号?Coze+Nano Banana 3 分钟出文进草稿箱
人工智能·aigc·coze
攻城狮7号3 小时前
小米投下语音AI“核弹”:MiMo-Audio开源,语音领域的“GPT-3时刻”来了
人工智能·ai语音·mimo-audio·小米开源模型
Godspeed Zhao3 小时前
自动驾驶中的传感器技术53——Radar(14)
人工智能·机器学习·自动驾驶
他们叫我技术总监3 小时前
Xinference 算力推理平台选型分析与算力计算指南
人工智能·云计算·制造
Python极客之家3 小时前
基于机器学习的心血管疾病智能预测系统
人工智能·python·机器学习·数据挖掘·数据分析·毕业设计·课程设计
工藤学编程3 小时前
零基础学AI大模型之LangChain六大核心模块与大模型IO交互链路
人工智能·langchain·交互
中杯可乐多加冰3 小时前
项目管理系统:基于smardaten无代码开发实践
人工智能
AI_Gump4 小时前
WhisperLiveKit上手及主观评测
人工智能·whisper