论文阅读笔记:VChain: Chain-of-Visual-Thought for Reasoning in Video Generation

1. 论文背景

最近的文本生成视频模型(Text-to-Video, T2V)已经可以生成比较流畅、视觉效果不错的视频。但是,当 prompt 涉及复杂的物理变化、因果关系或者常识推理时,模型仍然容易出错。

例如:

text 复制代码
A piece of ice on a brown piece of paper sitting under the sun.

人类很容易知道这个场景后续应该发生什么:

text 复制代码
冰块在太阳下会逐渐融化
→ 出现水
→ 水逐渐浸湿纸张

但是普通 T2V 模型可能只会生成一个"冰块在纸上"的视频,并不一定能正确表现"融化""水洼出现""纸被浸湿"这样的状态演化过程。

因此,这篇论文关注的核心问题是:

如何让视频生成模型更好地生成符合物理、常识和因果逻辑的状态变化过程?

可以把它归到:

text 复制代码
causal / physical / commonsense reasoning for video generation

也就是视频生成中的因果、物理和常识推理方向。

2. 核心思想

VChain 的核心思想是:

利用多模态大模型的推理能力,先生成一串关键视觉状态,再用这些关键帧辅助视频生成模型生成更合理的视频。

论文把这一串关键视觉状态称为:

text 复制代码
Chain of Visual Thoughts

也就是"视觉思维链"。

它和普通 Chain-of-Thought 的区别是:

text 复制代码
普通 CoT:中间推理过程是文字
VChain:中间推理过程是一组图像关键帧

例如对于"冰块在太阳下"这个 prompt,VChain 会先生成类似这样的关键帧序列:

text 复制代码
img0:完整冰块放在纸上
img1:冰块开始融化
img2:出现水洼
img3:纸张被水浸湿

这些图像关键帧可以作为视频生成模型的"视觉锚点",帮助模型知道视频应该朝哪个方向演化。

3. 方法流程

VChain 的方法主要分为三个阶段:

text 复制代码
1. Visual Thought Reasoning
2. Sparse Inference-Time Visual-State Adaptation
3. Video Sampling

3.1 Visual Thought Reasoning

第一阶段是用 GPT-4o 做视觉推理。

给定用户输入的 prompt:

text 复制代码
p

GPT-4o 首先推理这个场景可能导致什么结果,也就是论文里说的 consequence。

例如:

text 复制代码
输入:A piece of ice on a brown piece of paper sitting under the sun.

GPT-4o 推理:
冰块会因为太阳的热量融化,形成水洼,并逐渐浸湿纸张。

然后 GPT-4o 会生成第一帧的描述 txt0,再调用图像生成模型生成第一张图 img0

之后,GPT-4o 会根据当前已经生成的视觉链,继续预测下一步应该如何变化,并生成对应的图像编辑指令 txti,再得到下一张图 imgi

最终会得到:

text 复制代码
chainvis = [img0, img1, ..., imgN-1]
chaintxt = [txt0, txt1, ..., txtN-1]

其中:

text 复制代码
chainvis:一组关键帧
chaintxt:每张关键帧对应的文字描述

这一阶段的作用是:

让多模态大模型先帮视频生成模型"想清楚"事件应该如何发展。

3.2 Sparse Inference-Time Visual-State Adaptation

第二阶段是 VChain 最关键的地方。

对于一个 user prompt,前面已经得到了:

text 复制代码
chainvis = [img0, img1, ..., imgN-1]
chaintxt = [txt0, txt1, ..., txtN-1]

VChain 会把每一张关键帧 imgi 当作一个 one-frame video,并和对应的文字描述 txti 配对,构造一个很小的训练集:

text 复制代码
(img0, txt0)
(img1, txt1)
...
(imgN-1, txtN-1)

然后用这些 pairs 对视频生成模型进行临时 LoRA 微调。

也就是说,对于每一个 user prompt,都会临时训练一个 prompt-specific LoRA。

可以理解为:

text 复制代码
一个 prompt
→ 生成 N 张关键帧
→ 得到 N 个 image-text pairs
→ 用这些 pairs 临时训练 LoRA
→ 得到当前 prompt 专属的 adapted video generator

注意,这里并不是训练出一个新的大模型,而是在原始预训练视频模型的基础上,临时训练一个 LoRA adapter。

所以更准确地说,得到的是:

text 复制代码
frozen pre-trained video generator + prompt-specific LoRA

3.3 flow-matching objective

对于每张关键帧 imgi,模型会把它看作目标图像,然后在噪声和目标图像之间采样一个中间状态,让模型学习如何从噪声状态走向目标图像。

论文中使用的是 flow-matching objective,而不是传统 DDPM 里直接预测噪声的 loss。

可以简单理解为:

text 复制代码
VChain / flow matching:预测从噪声到目标图像的流动方向

3.4 Video Sampling

第三阶段是最终生成视频。

前面第二阶段已经得到了一个临时适配后的 video generator。然后 VChain 会把所有 textual thoughts 拼成一个长 prompt:

text 复制代码
txtconcat = txt0 + txt1 + ... + txtN-1

最后把这个长 prompt 输入到已经 LoRA-adapted 的视频生成模型中,生成最终视频。

整体可以写成:

text 复制代码
user prompt
→ GPT-4o 推理 consequence
→ 生成 chainvis 和 chaintxt
→ 用 (imgi, txti) 训练 prompt-specific LoRA
→ 拼接 textual thoughts 得到长 prompt
→ 输入 LoRA-adapted video generator
→ 输出 video

4. 我的理解

我理解 VChain 本质上是:

利用 LVLM / MLLM 的视觉理解和因果推理能力,来辅助 T2V 模型生成更合理的视频。

它不是简单地让 GPT-4o 帮忙扩写 prompt,而是进一步生成了关键帧序列。

普通 prompt augmentation 只是告诉模型:

text 复制代码
冰块会融化,纸会被浸湿。

而 VChain 是直接给模型构造出一组视觉状态:

text 复制代码
完整冰块
→ 开始融化
→ 出现水洼
→ 纸张被浸湿

这些关键帧再通过 LoRA tuning 被注入到视频生成模型中。

所以 VChain 的重点不是画质提升,而是增强视频中的:

text 复制代码
状态演化
因果一致性
物理合理性
常识推理

5. 这篇论文的贡献

我觉得这篇论文的主要贡献有三个。

5.1 提出了 Chain of Visual Thoughts

以前很多方法主要是让 LLM 生成更详细的文字 prompt。

VChain 的不同点是:它让多模态大模型生成一组视觉关键帧,把推理过程从文字变成了图像。

这使得视频生成模型不只是看到文字描述,还能看到一些关键视觉状态。

5.2 把 LVLM 的推理能力引入视频生成

视频生成模型本身不一定擅长因果推理,但是 GPT-4o 这类多模态大模型具有较强的视觉理解和未来状态预测能力。

VChain 的思路是:

text 复制代码
LVLM 负责推理事件如何发展
image generation model 负责生成关键帧
video generation model 负责生成连续视频

这种分工比较清晰。

5.3 通过 inference-time tuning 注入关键帧信息

VChain 没有重新训练整个视频生成模型,而是在每个 prompt 上临时训练一个 LoRA。

这种方式的优点是:

text 复制代码
不需要大规模真实视频数据
不需要人工标注
可以针对每个 prompt 生成专属的视觉状态链

6. 不足与思考

6.1 代码和完整实现问题

没有公开完整可复现实验代码。

6.2 需要补充一个更有说服力的对比实验

我觉得论文还应该比较一种 baseline(Offline LoRA fine-tuning):

把所有 user prompts 生成的 paired data 收集起来,统一做一次 LoRA fine-tuning,得到一个新的 fine-tuned model,然后在测试时只输入长 prompt 生成 video。

也就是说,不是每个 prompt 都临时训练一个 LoRA,而是:

text 复制代码
训练阶段:
所有 prompt 的 (imgi, txti) pairs
→ 组成一个训练集
→ 统一训练一个 reusable LoRA / fine-tuned model

测试阶段:
长 prompt
→ fine-tuned model
→ video

这个对比很重要,因为它可以回答:

VChain 一定需要 inference-time tuning 吗?

如果把所有 visual thoughts 数据积累起来,统一训练一个 LoRA,说不定可以让模型真正学到一些通用的物理、常识和因果状态演化能力。

这样相比每个 prompt 临时 tuning,可能有几个优势:

text 复制代码
推理更快
部署更简单
不需要每次都训练 LoRA
base model / adapter 得到长期增强
对社区更有贡献

如果这方法效果接近甚至超过 VChain,那么说明 VChain 的关键贡献可能并不是 inference-time tuning,而是 visual thought 数据本身。

7. 总结

VChain 是一篇比较有启发性的工作。它关注的是视频生成中一个很重要的问题:

模型能不能生成符合因果、物理和常识的视频状态演化过程?
未来的视频生成模型不应该只追求画质和流畅度,还应该具备对视觉状态变化、物理规律和因果关系的理解能力。

相关推荐
乘~风1 天前
408考研-计组-1.2计算机系统层次结构笔记+1.3计算机性能指标
笔记·考研·408
.千余1 天前
【C++】C++继承入门(下):友元、静态成员与菱形继承的底层逻辑
开发语言·c++·笔记·学习·其他
LeeAmos11 天前
Addendum No. 1 to JESD209-4 Low Power Double Data Rate 4X (LPDDR4X)的中文版
笔记
Ab_stupid1 天前
CTF-WEB培训笔记
笔记·web
逸模1 天前
逸模 VS CAD+SU系列(二)施工图:告别手动改图,全专业图纸自动生成
笔记·其他·cad·su·施工图
Ab_stupid1 天前
CTF-Android培训笔记
android·笔记
chushiyunen1 天前
高斯数据库笔记、gaussDb
数据库·笔记
小杰~1 天前
【个人笔记】VuePress Theme Plume 主题全解析 + 快速上手教程
笔记
whyTeaFo1 天前
MIT 6.1810: xv6 book Chapter7: Locking 笔记
笔记
StfinnWu1 天前
论文阅读:Spatial Frequency Modulation Network for EfficientImage Dehazing
论文阅读