DreamZero:基于世界行动模型的零样本机器人策略当前最先进的视觉 - 语言 - 动作(VLA)模型在语义泛化方面表现优异,但在新环境中对未见过的物理运动的泛化能力不足。NVIDIA 团队提出DreamZero,一款基于预训练视频扩散骨干网络的世界行动模型(World Action Model, WAM)。与 VLA 模型不同,WAM 通过预测未来世界状态和动作,以视频作为世界演变的密集表征来学习物理动力学。通过联合建模视频和动作,DreamZero 能从异构机器人数据中高效学习多样技能,无需依赖重复演示。在真实机器人实验中,其在新任务和新环境的泛化能力