DreamZero技术解析:当世界模型成为机器人“物理大脑”原文摘要翻译最先进的视觉-语言-动作(VLA)模型在语义泛化方面表现出色,但在新环境中难以泛化到未见过的物理动作。我们提出了 DreamZero,一种基于预训练视频扩散主干网络构建的世界动作模型(WAM)。与 VLA 不同,WAM 通过预测未来世界状态和动作来学习物理动力学,利用视频作为世界演化的密集表征。通过联合建模视频和动作,DreamZero 能够有效地从异构机器人数据中学习多样化技能,而无需依赖重复的演示数据。这使得在真实机器人实验中,相比于最先进的 VLA,对新任务和新环境的泛化能力提升了超过