wam

【WAM篇】21：RIGVid——让机器人“照着 AI 生成的视频“干活，零演示、零训练在 WAM 谱系里，级联式（先预测未来、再解码动作）这一大支下，"如何从预测出的视频里把动作抠出来"是个核心命题。前面我们见过用逆动力学模型（IDM）学习式回归动作的路线，也见过用光流做几何反推的路线。本篇要讲的 RIGVid（Robots Imitating Generated Videos，机器人模仿生成视频），把这条"几何式动作提取"推到了一个相当极端、也相当优雅的地步：它不收集任何真机演示、不做任何机器人专属训练，仅凭一个文生视频大模型"脑补"出的一段操作视频，外加一套纯几何的位姿跟踪与重定向流程

【WAM篇】22：ARDuP——让视频世界模型“盯紧任务相关区域“再行动从本篇起，我们走进 WAM 谱系里另一条主线：级联式 WAM → 潜在表征 → 隐式规划。简单说，就是不再傻乎乎地把整段未来视频一像素一像素地画出来，而是想办法在更高效、更聚焦的层面上做"预测未来"这件事，再从中解码动作。

【WAM篇】18：LV-P（Large Video Planner）——把“视频“当作机器人的母语，14B 大基座如何用扩散强迫想象未来上一篇 NovaFlow 走的是"借现成视频模型、零训练"的轻量路线。这一篇的 LV-P（Large Video Planner，大型视频规划器）反其道而行——它自己从头训了一个 140 亿参数的视频基础模型，立志把"视频"做成机器人决策的"母语"，再从模型想象出的视频里重建出人手的三维姿态，映射成机器人末端执行器的轨迹。

【WAM篇】19：Dream2Flow——用现成视频模型“做梦“，把 3D 物体流变成开放世界的机器人指令读完 17 篇 NovaFlow（零训练、用 3D 流驱动）和 18 篇 LV-P（自建 14B 视频基座），这一篇的 Dream2Flow 像是把它们的优点又拢到了一起：它沿用 NovaFlow 那种"借现成视频模型 + 3D 物体流中间表征"的零样本思路，但目标更野心——要在开放世界（open-world）里、对刚性、铰接、可形变、颗粒状四大类物体都能用同一套框架搞定，只靠一句话和一张图。

【WAM篇】16：3DFlowAction——把光流从平面提升到立体，用“3D 流世界模型“驱动跨本体操作走到这里，“光流"这条几何提取路线已经被推进了两步：AVDC（第 13 篇）证明了"动作能从光流几何地算出来”，Im2Flow2Act（第 14 篇）把光流搬进潜在空间直接生成、还把它立成了"跨域通用接口"。但这两者都卡在同一个天花板上——它们用的都是二维光流。

【WAM篇】01：UniPi——把“决策“变成“拍一段视频“的奠基之作级联式 WAM 的第一块基石：先用文本条件视频扩散模型"画出"一段执行视频，再用逆动力学模型从画面里"倒推"出动作。

【WAM篇】15：Dreamitate——让“工具“当桥梁，把人类演示变成机器人动作前两篇里，AVDC 和 Im2Flow2Act 都走的是"光流"这条几何提取路线：追踪画面里物体表面密集点的移动，再反解出动作。但几何式动作提取还有另一条同样优雅的支路——不追踪一堆密集的点，而是直接跟踪一个刚体物体的 6 自由度位姿。 Dreamitate（“Dream”+“imitate”，“在梦里模仿”；CoRL 2024）就是这条路线的代表作。

【WAM篇】05：TesserAct——当视频世界模型学会“立体地“想象未来级联式 WAM 系列的第五站。前面几篇里，世界模型"画出来"的未来都是一段平面的 RGB 视频。这一篇我们要看的 TesserAct 提出了一个朴素却关键的追问：机器人活在三维世界里，凭什么让它"想象"出来的未来只是二维的画面？

【WAM篇】04：This&That——用一句“把这个放到那儿“加两个手势点，消解机器人指令的歧义同属"先生成执行视频、再学习式提取动作"的级联式 WAM，This&That 把矛头对准了一个被前作忽视的痛点：当桌上摆着好几个一模一样的杯子，纯语言指令根本说不清"哪一个"。它的解法是给视频扩散模型同时喂入"this/that 指示语"和"首帧上的两个手势坐标点"，让任务指令既简洁又毫无歧义。

【WAM篇】07：Vidar——“一个先验，多种本体“，用 20 分钟数据驯服一台新机器人级联式 WAM 系列的第七站。上一篇 Gen2Act 选择不微调视频模型、让策略直接消化人类视频；这一篇 Vidar 走的是另一条路——把一个互联网级视频大模型继续在具身领域"深造"，让它学会把人类操作视频转译成机器人执行视频，再用一个只盯着"交互关键区"的逆动力学模型把动作抠出来。它最惊人的卖点是：只用 20 分钟的人类演示，就能让一台从没见过的新机器人上手干活。

【WAM篇】08：MVISTA-4D——用“先优化整条轨迹、再残差精修“取代逐帧倒推动作级联式 WAM 系列的第八站。第 05 篇 TesserAct 把视频预测升级成了 4D，但它从 4D 场景里抠动作，靠的仍是传统的逐帧逆动力学模型。这一篇 MVISTA-4D 直指这套逐步 IDM 的命门——它本质上是"病态"的——并提出一个两步机制把它整个换掉：先在轨迹层面优化出一个潜变量、再用残差 IDM 精修。顺带，它还把 4D 世界模型从"单面视角"推向了"多视角几何一致"。

【WAM篇】02：VLP——给“会想象的机器人“装上一棵会剪枝的规划树在 UniPi"先想象视频、再解码动作"的地基上，VLP 引入视觉语言模型做分层子目标提议与价值打分，再用树搜索把长程任务一步步推演出来——专治视频世界模型"一口气画长片就翻车"的误差累积顽疾。

【WAM篇】03：RoboEnvision——不再“一帧接一帧硬画“，先定关键帧再补全的长视频规划同样要对抗长程任务的误差累积，RoboEnvision 给出了一剂和 VLP 不同的药方：彻底放弃自回归式逐段续写，改用"VLM 分解子任务 → 一次性生成各子任务关键帧 → 在关键帧之间插值合成长视频"的非自回归流水线，并配上专门保几何一致的注意力模块。

世界动作模型（WAM）：让机器人学会“先想象，再行动“的下一代具身大脑人工智能的浪潮在过去几年以前所未有的速度重塑着世界。大语言模型让机器拥有了"读万卷书"的语言智慧，多模态模型让它学会了"看图说话"。然而，当我们把目光从屏幕里的对话框移向真实的物理世界时，一个根本性的难题浮现出来：一个能写诗、能编程的模型，却未必能稳稳地端起一杯水。让机器人在非结构化的真实环境中感知、推理并行动，始终是通用人工智能（AGI）皇冠上那颗最难摘取的明珠。

【论文阅读】MotuBrain: An Advanced World Action Model for Robot Control1.题目: MotuBrain: An Advanced World Action Model for Robot Control 2.时间: 2026.05 3.机构: 生数科技 4.3个英文关键词: World Action Model (WAM), VLA, Diffusion

具身智能之心

RoboAlign-R1：对齐任务与物理规则！从 “画面生成” 到 “决策可用”机器人视频世界模型（Robot Video World Model）是当前具身智能领域的核心技术。它的作用是让机器人在不真正执行动作的情况下，基于视觉观测与动作序列预测未来的场景变化，从而在 “想象” 中完成规划、推理与决策。相比于通用的视频生成，机器人世界模型有着更严格的要求：生成画面必须遵循指令、动作合理、接触真实、物理可信，否则无法用于真实机器人控制。

DreamZero——同时预测未来视觉状态与动作的世界动作模型：解决当下VLA如果人类不示教则理论很强但具体操作还不强的弊病最新的VLA模型在语义泛化方面表现出色，但在新环境中对未见过的物理动作的泛化却举步维艰那咋整呢由于视频生成模型在从OpenAI发布Sora至今的两年时间，变得越来越好了，能更好地生成符合物理规律的动作视频了，使得在今年年初，世界模型开始火热，给大家带来新的希望

我是有底线的