RoboAlign-R1：对齐任务与物理规则！从 “画面生成” 到 “决策可用”

机器人视频世界模型（Robot Video World Model）是当前具身智能领域的核心技术。它的作用是让机器人在不真正执行动作的情况下，基于视觉观测与动作序列预测未来的场景变化 ，从而在 "想象" 中完成规划、推理与决策。相比于通用的视频生成，机器人世界模型有着更严格的要求：生成画面必须遵循指令、动作合理、接触真实、物理可信，否则无法用于真实机器人控制。

原文链接：RoboAlign-R1：对齐任务与物理规则！从 "画面生成" 到 "决策可用"

然而，现有的机器人世界模型研究普遍面临三个难以解决的核心问题，严重制约落地能力。

第一，训练目标与实际决策需求严重错位。当前绝大多数模型以重建损失、感知相似度（如 MSE、LPIPS）或最大似然估计作为训练目标，只关注像素与特征层面的统计相似性，完全不考虑任务是否完成、动作是否正确、物体接触是否合理。这导致模型经常出现 "画面清晰、任务失败、物理失真" 的现象，看似生成质量高，却完全无法用于决策。部分研究尝试使用强化学习，但奖励函数依旧停留在低层视觉指标，无法实现任务对齐。

第二，长时序生成过程存在严重的误差累积。在基于 token 的自回归生成中，每一步预测都依赖前面所有时刻的输出。微小的预测偏差会随着帧数不断叠加、放大，最终导致物体漂浮、穿模、动作断裂、时序混乱。长时序规划几乎无法使用，这成为世界模型走向实用的一大障碍。

第三，精准奖励与高效训练难以兼顾。能够准确判断任务完成度与物理合理性的多模态大模型，普遍参数量大、速度慢、成本高，无法直接嵌入强化学习流程作为在线奖励；而计算高效的低层指标（MSE、SSIM 等）又无法反映任务成败与物理真实性，构成 "奖励对齐困境"。

为了系统性解决以上问题，腾讯、清华大学、纽约市立大学等机构联合提出 RoboAlign-R1 框架。该框架的核心思路可以概括为两点：在训练阶段，通过多模态奖励蒸馏 实现任务与物理规则的对齐，让模型学习 "做对、做实"；在推理阶段，通过滑动窗口重编码（SWR） 截断误差传播，让模型 "长时序不漂移"。同时，研究团队构建了大规模机器人评测基准 RobotWorldBench，为训练和评估提供高质量数据支撑。

实验结果表明，RoboAlign-R1 在六维度综合评分上超越最强基线 10.1%，操作准确率提升 7.5%，指令遵循提升 4.6%；SWR 策略仅增加约 1% 推理延迟，就使 SSIM 提升 2.8%、LPIPS 下降 9.8%。该工作首次实现 "对齐训练 + 稳定推理" 的完整方案，让机器人世界模型真正具备可落地、可决策、可长时序运行的能力。

主要创新方法

RoboAlign-R1 整体架构由骨干世界模型、奖励对齐后训练、滑动窗口重编码三部分组成，逻辑严密、层次清晰，形成从特征建模、目标对齐到长时序稳定的完整链条。

骨干网络：Token 化机器人视频世界模型

RoboAlign-R1 以Tokenize--Predict--Decode 范式为基础架构，将视觉观测与机器人动作统一建模为离散 token 序列，实现高效的时序预测。

首先，模型使用双分支视觉 tokenizer 对视频进行编码。其中，上下文分支将第一帧编码为上下文 token z c t x z^{ctx} zctx，用于保留场景初始信息；动态分支将后续每一帧编码为动态 token z t d y n z_t^{dyn} ztdyn，只建模画面随时间的变化量，降低冗余信息。

同时，连续动作向量被归一化、均匀分箱，转化为离散动作 token。视觉 token 与动作 token 按照时序交错拼接，形成统一序列：

s = [ z c t x , z 1 d y n , a ^ 1 , z 2 d y n , a ^ 2 , ... , z T d y n , a ^ T ] s = \left[ z^{ctx}, z_1^{dyn}, \hat{a}_1, z_2^{dyn}, \hat{a}_2, \dots, z_T^{dyn}, \hat{a}_T\right] s=[zctx,z1dyn,a^1,z2dyn,a^2,...,zTdyn,a^T]

随后，模型使用 12 层 LLaMA 结构的因果 Transformer 对序列进行建模，学习视觉与动作的联合概率分布。基础训练的损失函数为标准自回归预测损失：

L A R = − ∑ t = 1 T log ⁡ p θ ( z t d y n ∣ z c t x , z < t d y n , a ^ ≤ t ) \mathcal{L}{AR} = -\sum{t=1}^{T} \log p_{\theta}\left(z_t^{dyn} \mid z^{ctx}, z_{< t}^{dyn}, \hat{a}_{\le t}\right) LAR=−t=1∑Tlogpθ(ztdyn∣zctx,z<tdyn,a^≤t)

这一骨干网络能够较好地学习视觉时序变化规律，但由于训练目标仅关注统计拟合，不具备任务与物理层面的对齐能力，因此需要后续的奖励对齐训练进行强化。

核心创新一：奖励对齐后训练（Reward-Aligned Post-Training）

奖励对齐后训练是 RoboAlign-R1 最核心的创新，其目标是让世界模型不再只是 "拟合画面"，而是以任务成功、物理合理为目标进行优化。整个流程分为基准构建、教师评判训练、奖励蒸馏、强化学习后训练四个步骤。

构建机器人专用基准：RobotWorldBench

为了给奖励模型提供高质量监督信号，研究团队从 RT-1、BridgeData V2、CALVIN、LIBERO 四个主流机器人数据集中，构建了规模达 10000 条标注视频--指令对的基准数据集。每条数据包含语言指令、操控视频以及六维度细粒度标注分数：指令遵循、操作成功、动作--结果一致性、时序一致性、接触真实性、物理合理性。该基准是奖励模型训练的基础，也是模型评估的标准。

训练多模态教师评判模型：RoboAlign-Judge

以 Qwen3-VL-8B-Thinking 为基础模型，研究团队在 RobotWorldBench 上进行微调，使其能够输入指令与视频序列，输出结构化的六维评分。教师模型的训练目标为最大化标注分数的似然概率：

L t e a c h e r = − E ( l , v , r ) ∼ D b e n c h [ log ⁡ p ϕ ( r ∣ l , v ) ] \mathcal{L}{teacher} = -\mathbb{E}{(l,v,r) \sim \mathcal{D}{bench}} \left[ \log p{\phi}(r \mid l, v) \right] Lteacher=−E(l,v,r)∼Dbench[logpϕ(r∣l,v)]

经过微调后的 RoboAlign-Judge 具备高精度的任务理解、物理合理性判断与时序一致性评估能力，能够给出接近人类专家的细粒度评分。但由于模型体积大、推理速度慢，无法直接用于强化学习的在线奖励计算。

奖励蒸馏：轻量级学生奖励模型

为了在保持评判精度的同时提升运行效率，研究团队将 8B 参数的教师模型蒸馏为仅 98M 参数的轻量级学生奖励模型 g ψ g_ψ gψ。学生模型采用视觉--文本双编码器结构，输入指令与视频，直接输出归一化后的六维评分。

蒸馏过程使用加权 Huber 损失进行回归学习，使学生模型拟合教师模型的评分分布：

L d i s t i l l = E ( l , v ) ∑ k = 1 6 λ k Huber ⁡ ( g ψ ( l , v ) k , s ~ k ( l , v ) ) \mathcal{L}{distill} = \mathbb{E}{(l,v)} \sum_{k=1}^{6} \lambda_k \operatorname{Huber}\left( g_{\psi}(l, v)_k, \tilde{s}_k(l,v) \right) Ldistill=E(l,v)k=1∑6λkHuber(gψ(l,v)k,s~k(l,v))

其中 s ~ k \tilde{s}_k s~k是教师模型输出分数经归一化后的值。蒸馏后的学生奖励模型速度达到 50 视频/秒，奖励计算成本降低 10 倍以上，能够高效嵌入强化学习流程。

GRPO 强化学习后训练

使用学生奖励模型输出的六维评分构建综合奖励函数：

R ( x ^ 1 : T ) = ∑ k = 1 6 w k ⋅ [ g ψ ( l , x ^ 1 : T ) ] k R(\hat{x}{1:T}) = \sum{k=1}^{6} w_k \cdot [g_{\psi}(l, \hat{x}_{1:T})]_k R(x^1:T)=k=1∑6wk⋅[gψ(l,x^1:T)]k

模型采用 GRPO（Group Relative Policy Optimization）进行稳定的强化学习后训练，在保证生成分布与预训练模型不过度偏离的前提下，最大化综合奖励。为避免因分布偏移导致的奖励作弊问题，研究团队引入在线迭代蒸馏机制：每经过固定次数的策略更新，就使用教师模型重新对新生成的样本进行打分，更新学生奖励模型，保持奖励信号长期精准、对齐。

通过这一整套机制，世界模型从单纯的时序生成，转变为面向任务成功、物理真实的决策式预测模型。

核心创新二：滑动窗口重编码 SWR（Sliding Window Re-encoding）

SWR 是一项无需训练、低开销、即插即用的推理策略，专门解决自回归长时序误差累积问题。

其核心思想非常直观：定期截断历史误差，用最新生成的帧刷新上下文，让误差不再无限传递。具体执行流程如下：

将长视频按固定窗口大小 W 划分为多个片段；

在每个窗口内进行正常自回归生成；

窗口结束时，将最后一帧解码为像素，重新编码为新的上下文 token；

以新上下文为起点继续下一段生成，重复直至完成。

上下文刷新的过程可表示为：

x ^ k W = D v i s ( z k c t x , z ^ ( k − 1 ) W + 1 : k W d y n ) , z k + 1 c t x = T v i s ( x ^ k W ) \hat{x}{kW} = \mathcal{D}{vis}\left( z_k^{ctx}, \hat{z}{(k-1)W+1:kW}^{dyn} \right), \quad z{k+1}^{ctx} = \mathcal{T}{vis}\left( \hat{x}{kW} \right) x^kW=Dvis(zkctx,z^(k−1)W+1:kWdyn),zk+1ctx=Tvis(x^kW)

从理论上可以证明，SWR 将预测误差限制在窗口范围内，最大误差不再随总帧数 T 增长，而标准自回归生成的误差则随 T 线性增长。这从根本上抑制了长时序漂移。

在工程上，SWR 具有三大优势：无需训练、延迟增加低于 1%、显存占用显著降低。它让机器人世界模型在长序列预测中保持动作连贯、接触稳定、物理可信。

方法整体总结

RoboAlign-R1 实现了三大突破：

用蒸馏多模态奖励解决训练错位，让模型以任务与物理为优化目标；

用在线迭代蒸馏保证奖励精准，避免模型作弊与分布偏移；

用滑动窗口重编码解决长时序漂移，以极低开销实现稳定预测。

三者结合，构成了可落地、高性能、高效率的机器人世界模型训练与推理体系。

实验分析

本文实验设计全面、对比基线丰富，覆盖闭源视频模型、开源视频模型、机器人世界模型三类方法，并从六维任务评分、低层视觉指标、长时序稳定性、消融实验四个维度验证效果。

六维度综合评分

实验在 RobotWorldBench 上进行六维度细粒度打分，总分上限 10。结果显示：

RoboAlign-R1 总分达到 8.52 ，显著超过最强基线 iVideoGPT 的 7.74，相对提升 10.1%；
在指令遵循上达到 2.72，相对提升 4.6%；
在操作准确率上达到 1.72，相对提升 7.5%；
时序一致性、接触真实性、物理合理性等维度也均为最优。

同时，RoboAlign-R1 明显优于 Kling 2.6、Runway Gen-4.5、MiniMax 等商业闭源视频生成模型，说明专用化对齐训练比通用生成模型更适合机器人场景。

这一结论也被外部 VLM 交叉验证 和盲态人工评估再次确认，排名完全一致，证明表 1 的分数可靠。

低层视觉指标

在传统像素级指标上，团队在 RT-1 和 BridgeData V2 两个数据集上进行测试。结果显示：

RoboAlign-R1 在 MSE、PSNR、SSIM、LPIPS 全部四项指标上均取得最优；
在 RT-1 上 LPIPS 低至 0.173，BridgeData V2 上 MSE 低至 0.0127；
优于 iVideoGPT、RLVR-World、RoboDreamer 等所有具身世界模型基线。

这说明：对齐任务与物理规则，并不会牺牲画质，反而因为动作与接触更稳定，画面整体一致性更好。

长时序稳定性与 SWR 效果

团队在 RT-1 上对比标准自回归生成与 SWR（窗口 = 6），结果清晰展示在表 3 (a) 和表 3 (b)：

使用 SWR 后，SSIM 提升 2.8%，LPIPS 下降 9.8%；
感兴趣区域 ROI-LPIPS 下降 12.2%，操控区域质量提升更明显；
总推理时间从 5.646s 变为 5.709s，仅增加 1.1%；
峰值内存下降 4.2%，最大序列长度下降 54.8%，显存更友好。

图 7 进一步给出定性对比：SWR 明显缓解了长时序画面抖动、物体漂移、姿态错乱等问题，动作流程更连贯、物理更可信。

实验充分说明：SWR 是性价比极高的长时序优化策略，可以直接落地使用。

关键消融实验

奖励类型对比

团队对比蒸馏奖励、LPIPS、MSE、SSIM 等单一奖励。结果显示：蒸馏多模态奖励大幅领先所有低层指标，综合得分相对提升 33.8%，证明高层任务与物理奖励不可替代。

在线迭代蒸馏

开启在线迭代蒸馏后，总分从 8.09 提升到 8.52，操作成功率从 1.58 提升到 1.72，同时 LPIPS 进一步下降，说明该机制有效抑制奖励漂移与模型作弊。

窗口大小消融

窗口 W=4、6、8、10、15 对比如图3所示，W=6 在效果与速度之间取得最佳平衡，是最优默认配置。

定性可视化结果

从图 4 和图 5 的样例可以直观看到：

基线模型常常出现模糊、纹理闪烁、物体形变、接触不稳定；
RoboAlign-R1 生成的视频抓取准确、接触自然、纹理清晰、背景稳定；
在 "从抽屉取物""移动物体" 等典型任务中，动作流程更符合人类预期与物理规则。

总结与展望

总结

RoboAlign-R1 面向机器人视频世界模型，提出了一套训练对齐 + 推理稳定的完整方案，解决了当前领域最核心的痛点：

提出蒸馏多模态奖励对齐框架，让世界模型从 "像素拟合" 升级为 "任务与物理对齐"，综合性能提升 10.1%；

构建 RobotWorldBench 基准与高效奖励蒸馏流程，为机器人世界模型提供标准化数据与评测方案；

提出 滑动窗口重编码 SWR，以极低开销解决长时序漂移，让模型真正具备长时序预测能力。

整体来看，RoboAlign-R1 让机器人世界模型第一次同时实现：画质好、指令准、操作稳、物理真、长时序不崩，是从 "生成式视觉模型" 迈向 "决策式世界模型" 的关键一步。

展望

未来工作可以沿着以下方向推进：

拓展更多机器人形态与场景，从单臂桌面操作扩展到移动操作、双臂协作、灵巧手、户外环境；

验证下游控制与规划收益，将优化后的世界模型真正用于策略学习、物理规划、闭环控制；

更强的物理与几何对齐，结合物理引擎、几何约束、多模型集成评判，进一步提升真实性；

更高效的端到端学习，将奖励模型与世界模型联合优化，简化训练流程；

更强泛化能力，面向新物体、新环境、新任务实现零样本/小样本泛化，向通用机器人世界模型迈进。

长期来看，RoboAlign-R1 所代表的 "对齐训练 + 稳定生成" 范式，不仅适用于机器人，还可推广到自动驾驶、数字孪生、工业仿真等需要精准物理预测的领域，成为下一代物理 AI 的重要基础。

重磅！

全网首个！具身智能开源知识库来啦（技术/产业/投融资/上下游）

1v1 科研论文辅导来啦！

重磅！具身智能之心论文辅导来啦（近20+方向，顶会/顶刊/SCI/EI/中文核心/申博等）