【论文自动阅读】视频生成模型的Inference-time物理对齐 with Latent World Model

快速了解部分

基础信息（英文）：

1.题目: Inference-time Physics Alignment of Video Generative Models with Latent World Models

2.时间: 2026.01

3.机构: FAIR, Meta Superintelligence Labs, University of Oxford, Mila-Québec AI Institute, Columbia University, McGill University, Canada CIFAR AI Chair

4.3个英文关键词: Video Generation, Physics Plausibility, Latent World Models

1句话通俗总结本文干了什么事情

本文提出了一种在推理阶段利用潜在世界模型（Latent World Models）作为奖励信号来校准视频生成模型的方法，从而在不重新训练模型的情况下显著提升生成视频的物理合理性。

研究痛点：现有研究不足 / 要解决的具体问题

当前最先进的视频生成模型虽然视觉效果尚可，但往往违背基本物理原理（如物体运动、流体动力学等），导致生成的视频物理上不真实。现有研究通常认为这是预训练阶段缺乏物理理解导致的，而本文发现推理策略的次优也是导致物理不合理的重要原因。

核心方法：关键技术、模型或研究设计（简要）

本文提出了 WMReward，利用 VJEPA-2（一种潜在世界模型）的"惊喜分数"（Surprise Score）作为物理合理性的奖励信号。通过 Best-of-N (BoN) 搜索和引导采样（Guidance）策略，在推理时搜索和引导去噪轨迹，从而从倾斜的物理合理分布中采样。

深入了解部分

相比前人创新在哪里

视角转变 ：不同于以往通过改进预训练或后训练注入物理知识的方法，本文将提升物理合理性的任务视为一个推理时对齐（Inference-time alignment）问题。
奖励信号源：证明了潜在世界模型（Latent World Models）比现有的视觉语言模型（VLMs）或像素级重建模型更能有效作为物理合理性的代理指标。
扩展性：展示了通过增加推理时的计算量（搜索空间），模型性能有显著的提升效果。

解决方法/算法的通俗解释

想象你在生成视频时，有一个"物理监考老师"（VJEPA-2模型）在旁边看着。这个老师不关心画面的细节像素，只关心物理规律对不对。

打分：老师根据生成的画面与它预测的物理状态之间的差异给出一个"惊喜分"（差异越大，分数越高/越负面）。
修正：利用这个分数，系统在生成时会进行"多次尝试"（Best-of-N）或者"边画边改"（Guidance），专门挑选那些符合物理规律的视频帧，从而让最终生成的视频不仅好看，而且动得合理。

解决方法的具体做法

构建奖励函数 ：利用 VJEPA-2 的预测误差（生成未来的表征与模型预测表征之间的余弦距离）定义为 WMReward。
采样策略 ：
- Best-of-N (BoN)：从基础模型中生成 N 个候选视频，选择 WMReward 分数最高的一个。
- Guidance (V)：利用奖励函数的梯度直接干预扩散模型的去噪过程，引导生成轨迹向高奖励（物理合理）区域移动。
- 组合策略 (V+BoN)：结合上述两种方法，既利用梯度引导，又进行最终筛选。

基于前人的哪些方法

VJEPA-2：作为奖励模型的基础，利用其在压缩潜在空间中学习到的强大物理先验。
扩散/流匹配模型：作为基础的视频生成模型（如 MAGI-1 和 vLDM）。
推理时对齐（Inference-time alignment）：借鉴了图像生成领域中利用奖励模型进行搜索或引导的思路（如 Best-of-N, Classifier Guidance）。

实验设置、数据、评估方式、结论

模型：MAGI-1 (24B autoregressive model) 和 vLDM (5B holistic diffusion model)。
数据集：PhysicsIQ (I2V, V2V), VideoPhy (T2V)。
评估方式 ：
- 自动指标：PhysicsIQ 分数（结合 IoU, MSE 等）；VideoPhy 的物理一致性 (PC) 和语义一致性 (SA)。
- 人工评估：针对物理合理性、视觉质量和提示词对齐进行成对偏好打分。
结论：
- 在 PhysicsIQ 挑战赛中以 62.64% 的得分获得第一名，超越之前的 SOTA 7.42%。
- 在 VideoPhy 上，物理一致性（PC）显著提升。
- 人工评估显示，相比基线，物理合理性胜率达到 54.9% - 59.3%。
- 验证了 WMReward 在增加搜索粒子数（N）时具有良好的扩展性。

提到的同类工作

VLM-based methods：如 Xue et al. (2025) 使用 VLM 重写提示词，Yang et al. (2025b) 使用 VLM 规划运动。
Pre-training methods：如 Yuan et al. (2025b), Chefer et al. (2025) 等试图在预训练阶段注入物理信息。
Other Inference methods：如 SMC (Singhal et al., 2025) 和 SVDD (Li et al., 2024a) 等推理时搜索算法。

和本文相关性最高的3个文献

Assran et al., 2025 (VJEPA-2)：本文直接复用其作为奖励模型的基础，是 WMReward 的核心来源。
Motamed et al., 2025 (PhysicsIQ)：提出了物理合理性的基准测试，是本文主要的实验验证平台。
Garrido et al., 2025 (Intuitive physics in VJEPA)：证明了 VJEPA 模型中自然涌现出直观物理理解（如物体恒常性），为本文利用 VJEPA 作为物理奖励提供了理论依据。

我的

利用VJEPA-2作为奖励信号来训练视频生成模型。