快速了解部分
基础信息(英文):
1.题目: Inference-time Physics Alignment of Video Generative Models with Latent World Models
2.时间: 2026.01
3.机构: FAIR, Meta Superintelligence Labs, University of Oxford, Mila-Québec AI Institute, Columbia University, McGill University, Canada CIFAR AI Chair
4.3个英文关键词: Video Generation, Physics Plausibility, Latent World Models
1句话通俗总结本文干了什么事情
本文提出了一种在推理阶段利用潜在世界模型(Latent World Models)作为奖励信号来校准视频生成模型的方法,从而在不重新训练模型的情况下显著提升生成视频的物理合理性。
研究痛点:现有研究不足 / 要解决的具体问题
当前最先进的视频生成模型虽然视觉效果尚可,但往往违背基本物理原理(如物体运动、流体动力学等),导致生成的视频物理上不真实。现有研究通常认为这是预训练阶段缺乏物理理解导致的,而本文发现推理策略的次优也是导致物理不合理的重要原因。
核心方法:关键技术、模型或研究设计(简要)
本文提出了 WMReward,利用 VJEPA-2(一种潜在世界模型)的"惊喜分数"(Surprise Score)作为物理合理性的奖励信号。通过 Best-of-N (BoN) 搜索和引导采样(Guidance)策略,在推理时搜索和引导去噪轨迹,从而从倾斜的物理合理分布中采样。
深入了解部分
相比前人创新在哪里
- 视角转变 :不同于以往通过改进预训练或后训练注入物理知识的方法,本文将提升物理合理性的任务视为一个推理时对齐(Inference-time alignment)问题。
- 奖励信号源:证明了潜在世界模型(Latent World Models)比现有的视觉语言模型(VLMs)或像素级重建模型更能有效作为物理合理性的代理指标。
- 扩展性:展示了通过增加推理时的计算量(搜索空间),模型性能有显著的提升效果。
解决方法/算法的通俗解释
想象你在生成视频时,有一个"物理监考老师"(VJEPA-2模型)在旁边看着。这个老师不关心画面的细节像素,只关心物理规律对不对。
- 打分:老师根据生成的画面与它预测的物理状态之间的差异给出一个"惊喜分"(差异越大,分数越高/越负面)。
- 修正:利用这个分数,系统在生成时会进行"多次尝试"(Best-of-N)或者"边画边改"(Guidance),专门挑选那些符合物理规律的视频帧,从而让最终生成的视频不仅好看,而且动得合理。
解决方法的具体做法
- 构建奖励函数 :利用 VJEPA-2 的预测误差(生成未来的表征与模型预测表征之间的余弦距离)定义为 WMReward。
- 采样策略 :
- Best-of-N (BoN):从基础模型中生成 N 个候选视频,选择 WMReward 分数最高的一个。
- Guidance (V):利用奖励函数的梯度直接干预扩散模型的去噪过程,引导生成轨迹向高奖励(物理合理)区域移动。
- 组合策略 (V+BoN):结合上述两种方法,既利用梯度引导,又进行最终筛选。
基于前人的哪些方法
- VJEPA-2:作为奖励模型的基础,利用其在压缩潜在空间中学习到的强大物理先验。
- 扩散/流匹配模型:作为基础的视频生成模型(如 MAGI-1 和 vLDM)。
- 推理时对齐(Inference-time alignment):借鉴了图像生成领域中利用奖励模型进行搜索或引导的思路(如 Best-of-N, Classifier Guidance)。
实验设置、数据、评估方式、结论
- 模型:MAGI-1 (24B autoregressive model) 和 vLDM (5B holistic diffusion model)。
- 数据集:PhysicsIQ (I2V, V2V), VideoPhy (T2V)。
- 评估方式 :
- 自动指标:PhysicsIQ 分数(结合 IoU, MSE 等);VideoPhy 的物理一致性 (PC) 和语义一致性 (SA)。
- 人工评估:针对物理合理性、视觉质量和提示词对齐进行成对偏好打分。
- 结论 :
- 在 PhysicsIQ 挑战赛中以 62.64% 的得分获得第一名,超越之前的 SOTA 7.42%。
- 在 VideoPhy 上,物理一致性(PC)显著提升。
- 人工评估显示,相比基线,物理合理性胜率达到 54.9% - 59.3%。
- 验证了 WMReward 在增加搜索粒子数(N)时具有良好的扩展性。
提到的同类工作
- VLM-based methods:如 Xue et al. (2025) 使用 VLM 重写提示词,Yang et al. (2025b) 使用 VLM 规划运动。
- Pre-training methods:如 Yuan et al. (2025b), Chefer et al. (2025) 等试图在预训练阶段注入物理信息。
- Other Inference methods:如 SMC (Singhal et al., 2025) 和 SVDD (Li et al., 2024a) 等推理时搜索算法。
和本文相关性最高的3个文献
- Assran et al., 2025 (VJEPA-2):本文直接复用其作为奖励模型的基础,是 WMReward 的核心来源。
- Motamed et al., 2025 (PhysicsIQ):提出了物理合理性的基准测试,是本文主要的实验验证平台。
- Garrido et al., 2025 (Intuitive physics in VJEPA):证明了 VJEPA 模型中自然涌现出直观物理理解(如物体恒常性),为本文利用 VJEPA 作为物理奖励提供了理论依据。
我的
利用VJEPA-2作为奖励信号来训练视频生成模型。