世界动作模型

Fast-WAM——在训练期间保留视频联合训练，但在推理时移除显式的未来生成，直接在一次前向传播中，从潜在世界表征预测动作在本文中，来自的研究者探讨：世界模型代理（WAM）在测试阶段是否需要显式的未来想象，还是其优势主要来源于训练阶段的视频建模

DreamZero：基于世界行动模型的零样本机器人策略当前最先进的视觉 - 语言 - 动作（VLA）模型在语义泛化方面表现优异，但在新环境中对未见过的物理运动的泛化能力不足。NVIDIA 团队提出DreamZero，一款基于预训练视频扩散骨干网络的世界行动模型（World Action Model, WAM）。与 VLA 模型不同，WAM 通过预测未来世界状态和动作，以视频作为世界演变的密集表征来学习物理动力学。通过联合建模视频和动作，DreamZero 能从异构机器人数据中高效学习多样技能，无需依赖重复演示。在真实机器人实验中，其在新任务和新环境的泛化能力

GigaWorld-Policy——以动作为中心的世界动作模型：为降低推理延迟，训练用视频，推理去视频(与Fast-WAM类似)目前VLA + RL、世界动作模型这两条主流技术路线所对应的巨大潜力，已经被越来越多的人认可故我近期一直在关注这两条技术路线的发展，故而也关注到了本文要介绍的GigaWorld-Policy，有意思的是，今早朋友圈还看到星海图一领导转发了他们的一个世界动作模型工作《Fast-WAM: Do World Action Models Need Test-time Future Imagination?》，其最早于26年3.17提交到arxiv上

DreamZero——同时预测未来视觉状态与动作的世界动作模型：解决当下VLA如果人类不示教则理论很强但具体操作还不强的弊病最新的VLA模型在语义泛化方面表现出色，但在新环境中对未见过的物理动作的泛化却举步维艰那咋整呢由于视频生成模型在从OpenAI发布Sora至今的两年时间，变得越来越好了，能更好地生成符合物理规律的动作视频了，使得在今年年初，世界模型开始火热，给大家带来新的希望

MindDrive：融合世界模型与视觉语言模型的端到端自动驾驶框架端到端自动驾驶（E2E-AD）已成为自动驾驶领域的主流研究范式，其中轨迹规划是决定系统性能的核心环节。现有研究主要分为两类：一类以轨迹生成为核心，专注于生成高质量轨迹但决策机制简单；另一类以轨迹选择为核心，具备多维度评估能力但生成能力不足。为此，本文提出 MindDrive 框架，创新性地整合了高质量轨迹生成与全面决策推理，构建了 “假设仿真 - 候选生成 - 多目标权衡” 的结构化推理范式。该框架通过基于世界动作模型（WAM）的未来感知轨迹生成器（FaTG）实现基于自车状态的 “假设” 仿真，预测未来场

我是有底线的