CTRL-WORLD:一种用于机器人操控的可控生成世界模型(中美2025年联合研究)

摘要: 通用型机器人策略如今已能执行多种操作技能,但评估并提升其处理陌生物体和指令的能力仍面临重大挑战。严格的性能评估需要进行大量真实场景测试,而系统性优化则需依赖带有专家标注的修正数据------这两个过程均耗时漫长、成本高昂且难以规模化实施。世界模型为此提供了具有前景且可扩展的解决方案,它能够使策略在想象空间内运行。然而,关键难点在于构建一个能有效处理与通用型机器人策略进行多步骤交互的可控世界模型。这要求该模型需支持多视角预测、精细动作控制以及一致性的长时程交互能力,而这正是现有研究尚未实现的目标。本文通过引入一种可控的多视角世界模型,在评估和提升通用型机器人策略的指令执行能力方面取得重要进展。我们的模型采用姿态条件记忆检索机制确保长时程一致性,并通过帧级动作调控实现精准的动作控制。基于droid数据集(包含95,000条轨迹和564个场景)训练后,该模型能在新型场景及不同摄像头位置下持续生成时空一致的运动轨迹,持续时间超过20秒。我们证明,我们的方法无需实际部署机器人即可准确评估策略性能。此外,通过在模型中合成成功的运动轨迹并将其用于监督微调,该方法可使策略成功率提升44.7%。

Ctrl-World专为采用通用机器人策略的闭环策略部署场景而设计。该系统能够生成包含手腕视角在内的多视图联合预测结果,通过帧级条件化实现精细的动作控制,并借助姿态相关记忆检索机制维持连贯的长时程动态行为。这些核心功能可实现:(1)在模拟环境中进行精准的策略评估,并与真实部署场景保持一致性;(2)通过合成轨迹实现针对性的策略优化。
Ctrl-World基于预训练的视频扩散模型构建而成,并被优化为一个可控制且时间一致性强的世界模型,其核心特征包括:(1)多视角输入与联合预测机制,实现统一的信息理解;(2)记忆检索机制:通过帧级交叉注意力将稀疏的历史帧信息及运动姿态信息融入每个帧中,使预测结果与相似的历史状态保持关联;(3)帧级动作条件化机制,使高频动作与视觉动态更好地同步。
验证集上交互式长轨迹生成的定量结果。我们通过生成10秒长的轨迹来评估世界模型的质量。给定随机采样的初始帧,模型在每次交互中接收一个包含15个动作步骤(覆盖1秒时间)的序列,并进行10轮自回归生成;结果取256个片段的平均值
对Ctrl-World系统中的关键组件进行功能消除操作。移除内存机制、帧级动作条件反射或多视图联合预测均会导致性能下降
现实场景与世界模型部署之间的定量相关性。世界模型能够可靠地捕捉指令执行行为,但往往低估实际执行成功率

**结论:**我们推出了Ctrl-World------一款专为机器人操作设计的可控世界模型,该模型完全支持在模型内部进行闭环策略评估与优化。在Ctrl-World中测试的策略展现出与现实世界高度一致的指令执行行为:经过生成数据训练后,预训练机器人策略对新指令的成功率从38.7%提升至83.4%。尽管成果令人鼓舞,但仍存在重要挑战:我们的模型在涉及精确交互或长时程推理的任务中易出现失败,且性能对初始观测数据敏感;随着视频数据骨架模型的物理精度和连贯性不断提升(Ball 等,2025; Agarwal 等,2025),这些局限性有望逐步缓解。此外,本实验主要聚焦于提升指令执行能力,我们认为当前模型精度尚不足以显著改善其他方面表现(如对已见过指令的低级成功率)。通过迭代策略部署与微调来改进模型,是极具前景的研究方向。展望未来,我们相信生成式世界模型将彻底改变机器人技能习得方式,不仅实现可扩展的策略评估,还能使机器人既能从真实环境经验中学习,也能高效安全地从生成数据中获取知识。

相关推荐
jeffer_liu1 小时前
Spring AI 生产级实战:工具调用
java·人工智能·后端·spring·ai编程
阿乔外贸日记1 小时前
2026尼日利亚五项清关政策更新,拉高能源装备进口综合成本
大数据·人工智能·搜索引擎·智能手机·云计算·能源
民乐团扒谱机2 小时前
【AI笔记】短时纯音时长对音高感知偏移效应研究综述
人工智能·笔记
侃谈科技圈2 小时前
破除数据中台落地困境:2026数据治理平台差异化能力与选型决策指南
大数据·人工智能
大象说2 小时前
Python多进程共享队列无报错僵死 120G Nginx访问日志清洗踩坑全记录
人工智能·自然语言处理
Cosolar2 小时前
AutoGen 精通教程:从零到企业级多 Agent 系统架构师
人工智能·后端·面试
甲维斯3 小时前
Claude Code 省钱小妙招!200K和自动压缩
人工智能
DO_Community3 小时前
DigitalOcean 的 AI 推理路由器是如何构建的
人工智能·开源·agent·claude·deepseek
Elastic 中国社区官方博客3 小时前
Elasticsearch DiskBBQ:使用原生 SIMD Blocks 实现快 40% 的向量评分计算
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·diskbbq