【论文精读】TI2V-Zero:零样本图像引导的文本到视频生成技术

标题:TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models

作者:Haomiao Ni、Bernhard Egger、Suhas Lohit、Anoop Cherian、Ye Wang、Toshiaki Koike-Akino、Sharon X. Huang、Tim K. Marks

单位:1. 美国宾夕法尼亚州立大学(The Pennsylvania State University, USA);2. 德国埃尔朗根 - 纽伦堡弗里德里希 - 亚历山大大学(Friedrich-Alexander-Universit¨at Erlangen-N¨urnberg, Germany);3. 美国三菱电机研究实验室(Mitsubishi Electric Research Laboratories (MERL), USA)

发表:CVPR 2024

论文链接https://arxiv.org/pdf/2404.16306

项目链接https://merl.com/demos/TI2V-Zero

代码链接:暂无

关键词:文本条件图像到视频生成(TI2V)、零样本学习(Zero-Shot Learning)、扩散模型(Diffusion Models)、预训练文本到视频模型(Pretrained Text-to-Video Models)、时序连贯性(Temporal Continuity)、重复 - 滑动策略(Repeat-and-Slide Strategy)、DDPM 逆过程(DDPM Inversion)、重采样(Resampling)


在文本条件图像到视频(TI2V)生成领域,如何让模型在不额外训练的前提下,根据单张图像和文本指令生成时序连贯、细节保真的视频,一直是研究难点。传统方法往往依赖大规模视频 - 文本数据集训练,或需设计复杂的图像 - 文本融合模块,导致通用性和效率受限。本文精读的CVPR 2024论文《TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models》,提出了一种突破性的零样本解决方案,无需微调或引入外部模块,仅通过调制预训练 T2V 扩散模型的采样过程,即可实现图像引导的视频生成。

一、研究背景与问题定义

1.1 任务背景:TI2V 的核心需求

文本条件图像到视频生成(TI2V)的目标是:给定一张初始图像(如 "微笑的女性")和文本描述(如 "女性正在喝水"),合成一段包含M个新帧的视频,要求视频既符合文本语义,又与初始图像的视觉细节(如人物身份、背景)保持一致。

TI2V 在艺术创作、数据增强、影视特效等领域具有重要应用,但现有方法存在两大关键问题:

  • 高训练成本:多数方法(如 MAGE、DragNUWA)需在大规模视频 - 文本数据集上进行耗时的训练,且依赖定制化网络结构以支持图像 - 文本联合条件;
  • 泛化性受限:部分方法(如 DynamicCrafter)虽基于预训练 T2V 模型,但仍需训练额外的图像编码模块,无法实现 "零样本" 适配任意图像。

1.2 核心挑战

TI2V 任务的核心挑战在于时序连贯性视觉细节保真的平衡:

  1. 预训练 T2V 模型的时序注意力机制通常依赖自身生成的帧间信息,难以主动利用外部输入的初始图像;
  2. 直接用随机高斯噪声初始化新帧生成,易导致帧间运动不连贯、细节丢失(如初始图像中的人物发型、背景物体在后续帧中消失);
  3. 零样本场景下,无法通过训练调整模型参数,需仅通过采样过程调制实现图像引导。

1.3 研究目标

TI2V-Zero 的核心目标是:基于预训练 T2V 扩散模型,无需任何优化、微调或外部模块,实现零样本 TI2V 生成,同时保证视频的时序连贯性和视觉细节一致性。

二、相关工作梳理

为凸显 TI2V-Zero 的创新点,需先明确其在现有研究中的定位,现有相关工作主要有两类:

2.1 条件图像到视频生成(TI2V)

传统 TI2V 方法可分为 "训练依赖型" 和 "部分依赖预训练型":

  • 训练依赖型:如 MAGE(2022)通过 3D 轴向 Transformer 存储 "外观 - 运动对齐表示",DragNUWA(2023)设计轨迹采样器和多尺度融合模块,但均需在视频 - 文本数据集上从头训练,成本高;
  • 部分依赖预训练型:如 DynamicCrafter(2023)基于预训练 T2V 模型 VideoCrafter,但需额外训练 "图像编码网络" 将图像投影到文本对齐空间,并添加双交叉注意力层融合信息,仍未实现 "零样本"。

TI2V-Zero 的差异在于:完全不依赖任何额外训练,仅通过调制预训练模型的采样过程实现图像引导

2.2 扩散基础模型的适配

扩散模型(DM)在图像(如 Stable Diffusion)和视频(如 ModelScopeT2V、VideoCrafter)生成中已取得成功,其核心优势是可通过 "知识迁移" 适配下游任务。现有适配方向包括:

  • 图像任务:个性化生成(Textual Inversion)、图像编辑(Repaint);
  • 视频任务:视频编辑(FateZero)、视频生成(AnimateDiff)。

但针对T2V 模型的零样本图像引导适配,现有研究仍属空白。TI2V-Zero 首次探索了 "仅通过采样过程调制" 的适配方式,无需修改模型结构或训练参数。

三、方法详解:TI2V-Zero 的核心设计

TI2V-Zero 基于预训练 T2V 扩散模型(本文选用 ModelScopeT2V),通过三大核心模块解决零样本 TI2V 的挑战:"重复 - 滑动" 策略 (Repeat-and-Slide)、DDPM 逆过程初始化 (DDPM Inversion)、重采样技术(Resampling)。在展开前,需先明确预训练 T2V 模型的基础结构。

3.1 基础:预训练 T2V 扩散模型(ModelScopeT2V)

ModelScopeT2V 是一种 ** latent 视频扩散模型 **,结构与 Stable Diffusion 类似,核心包括三部分:

  1. 帧自动编码器(Encoder/Decoder)
    • 编码器:将像素空间的帧(尺寸)映射到 latent 空间(尺寸);
    • 解码器D:将 latent 还原为像素帧
  2. 3D 去噪 U-Net(
    • 核心模块,负责在 latent 空间进行扩散去噪,包含初始块、下采样块、时空块(捕捉空间 - 时间依赖)、上采样块;
    • 时空块由 2D 空间卷积、1D 时间卷积、2D 空间注意力、1D 时间注意力组成;
  3. 文本条件机制
    • 用 CLIP 模型将文本编码为文本嵌入
    • 在 U-Net 的空间注意力层中,将作为键(Key)和值(Value),实现文本与 latent 特征的融合;
    • 采用无分类器引导(Classifier-Free Guidance) :训练时以固定概率将文本嵌入替换为 "空标签",采样时通过如下公式增强文本引导强度:,其中为引导尺度(本文设为 9.0)。

3.2 基线方法:基于替换的图像引导(Replacing-based Baseline)

为凸显核心设计的必要性,论文先提出了一种直观的基线方法,再分析其缺陷:

  • 思路 :在扩散逆过程的每一步,将当前 latent 序列的第一帧,替换为 "初始图像 步带噪 latent" (由 DDPM 前向过程计算得到:),期望时序注意力利用第一帧信息生成后续帧;
  • 缺陷:如图 3 所示,基线方法生成的视频与初始图像完全脱节(如 "骑马" 任务中,生成帧的人物与初始图像人物无关)。原因是:预训练模型的时序注意力更倾向于 "同类来源" 的 latent(即模型自身生成的 latent),而忽略 "外部来源" 的初始图像 latent,导致帧间一致性丢失。

注:红色框为给定初始图像。基线方法(Replacing)仅在 "单帧预测"(已知所有其他帧,预测缺失帧)中有效,在 TI2V 和视频补全任务中完全失效;TI2V-Zero 则可生成时序连贯的视频。

3.3 核心设计 1:"重复 - 滑动" 策略(Repeat-and-Slide)

针对基线方法的缺陷,"重复 - 滑动" 策略通过强制时序注意力仅依赖初始图像及已生成帧,解决 "外部 latent 被忽略" 的问题,核心分为两步:

步骤 1:构建初始 Latent 队列
  • 初始阶段,仅有一张初始图像,将其编码为 latent,并重复 K 次 (K 为预训练模型的视频长度减 1,如模型默认生成 16 帧视频,则 K=15),形成队列(共 K 帧);
  • 队列的作用:作为扩散逆过程中 "强制替换" 的基准,确保每一步的 latent 序列中,前 K 帧均来自 "外部来源"(初始图像或已生成帧)。
步骤 2:帧生成与队列滑动
  • 逐帧生成 :每次扩散逆过程仅生成 1 个新帧(而非整个视频),即从队列出发,生成第 K+1 帧的 latent
  • 队列滑动 :生成新帧后,将队列的第一帧移除,加入新生成的 latent,形成新队列,用于下一帧生成。
关键公式

在扩散逆过程的每一步 t,将当前 latent 序列的前 K 帧替换为 "队列的 t 步带噪 latent"),公式如下:,此操作强制时序注意力只能从(外部来源)获取信息,从而保证新生成帧与初始图像的一致性。

3.4 核心设计 2:DDPM 逆过程初始化(DDPM Inversion)

传统扩散模型用随机高斯噪声)初始化逆过程,但这会导致新帧与初始图像的时序连贯性差(如图 4 第 2 行,生成帧的人物表情与初始图像完全无关)。

注:红色框为初始图像,文本为 "略带悲伤表情的女性"。从左到右为视频的第 1、6、11、16 帧。可见 "DDPM 逆过程 + 重采样" 的组合效果最优。

论文提出用DDPM 前向过程生成初始噪声,核心思路:

  • 对队列施加 T 步完整的前向噪声(即 DDPM 前向过程),得到带噪队列
  • 初始化逆过程的 latent 序列:前 K 帧直接用,第 K+1 帧(待生成帧)用的最后一帧(因相邻帧的噪声分布更相似);
  • 效果:如图 4 第 3 行所示,相比随机初始化,DDPM 逆过程初始化使生成帧与初始图像的表情、细节更一致;定量上,FVD(视频质量指标,越低越好)从 1656.37 降至 339.89(表 1,第1、2行)。

3.5 核心设计 3:重采样技术(Resampling)

为进一步提升帧间运动连贯性和细节保真度,论文引入重采样技术(源自图像修复任务 Repaint),核心操作:

  • 在扩散逆过程的每一步 t,完成一次去噪(从)后,重新添加 1 步噪声),并重复该过程 U 次(本文 U=4);
  • 作用:通过 "去噪 - 加噪" 的循环,让模型在每一步更充分地对齐 "引导 latent()" 与 "生成 latent()",减少细节丢失和运动抖动;
  • 效果:如图 4 第 5-6 行所示,重采样使生成帧的发型、面部细节更稳定,FVD 从 339.89 进一步降至 180.09(表 1,第2、5行)。

3.6 完整生成流程

结合三大核心设计,TI2V-Zero 的完整生成流程如下(输入:初始图像、文本、预训练 T2V 模型;输出:M+1 帧视频):

注:左半部分为队列构建与 DDPM 逆过程初始化,右半部分为扩散逆过程与重采样。i=0 为首次生成,i>0 为后续帧生成(队列滑动后)。

  1. 编码初始图像 :用编码器编码为 latent
  2. 初始化队列 :将重复 K 次,得到初始队列
  3. 逐帧生成(循环 M 次) :a. DDPM 逆过程初始化 :对施加 T 步噪声得到,用初始化(前 K 帧 = ,第 K+1 帧 = 的最后一帧);b. 扩散逆过程(T-1 步到 1 步) :i. 对当前t,计算的 t 步噪声),并替换的前 K 帧为;ii. 执行 U 次重采样:去噪得到 → 重新加 1 步噪声 → 再次去噪;c. 解码新帧 :用解码器D将的第 K+1 帧解码为新像素帧;d. 滑动队列 :移除的第一帧,加入的第 K+1 帧,更新
  4. 输出视频 :合并初始图像和所有新生成帧,得到最终视频

算法伪代码如下:

四、实验验证:全面评估性能

论文在领域特定数据集 (MUG、UCF101)和开放域数据集(OPEN)上进行实验,重新验证了 TI2V-Zero 的有效性,主要对比了基线方法和当前 SOTA 模型 DynamicCrafter。

4.1 实验设置

数据集
数据集 任务类型 数据规模 文本模板 视频参数
MUG 面部表情 10 个 subject(5 男 5 女),4 种表情(愤怒、开心、悲伤、惊讶) "A [性别] with the expression of slight {表情} on her/his face." 16 帧,256×256
UCF101 人体动作 10 个动作类(如划船、冲浪、化妆),每类 10 个视频 "A person is [动作]." 16 帧,256×256
OPEN 开放域 10 个文本 prompt(如 "北极极光""威尼斯贡多拉"),每类 100 张初始图像(Stable Diffusion 生成) 原始文本(如 "A romantic gondola ride through the canals of Venice at sunset.") 16 帧,256×256
评估指标
  • FVD(Fréchet Video Distance):衡量生成视频与真实视频的分布差异,越低越好;
  • sFVD(Subject-conditioned FVD):衡量同一初始图像下生成视频与真实视频的一致性(主体保真度);
  • tFVD(Text-conditioned FVD):衡量同文本下生成视频与真实视频的一致性(语义保真度)。
对比模型
  • DynamicCrafter(SOTA):基于 VideoCrafter 预训练模型,需训练额外图像编码模块;
  • ModelScopeT2V(基线):仅文本引导的 T2V 模型,无图像引导;
  • TI2V-Zero(无重采样):仅含 "重复 - 滑动" 和 DDPM 逆过程,无重采样;
  • TI2V-Zero(有重采样):完整版本。

4.2 核心实验结果

1. 领域特定数据集性能(MUG & UCF101)

表 3 展示了各模型在 MUG 和 UCF101 上的定量对比,核心结论:

  • TI2V-Zero(有重采样)在所有指标上大幅优于 DynamicCrafter 和 ModelScopeT2V:
    • MUG 上,FVD 从 DynamicCrafter 的 1094.72 降至 180.09,sFVD 从 1359.86 降至 267.17(主体细节更保真);
    • UCF101 上,FVD 从 DynamicCrafter 的 589.59 降至 477.19,tFVD 从 1540.02 降至 1306.75(动作语义更一致);
  • 重采样技术的增益显著:TI2V-Zero(有重采样)比(无重采样)在 MUG 上 FVD 降低 47%,证明其对细节和连贯性的提升。
2. 开放域数据集性能(OPEN)

由于开放域无真实视频作为 ground truth,论文通过定性对比验证性能(图 5):

  • DynamicCrafter:难以保留初始图像细节(如 "威尼斯贡多拉" 中,生成帧的贡多拉颜色与初始图像不符),运动多样性差;
  • TI2V-Zero(有重采样):精准保留初始图像的视觉特征(如极光的颜色、贡多拉的形状),且运动连贯(如极光的流动、贡多拉的前进方向稳定)。

注:红色框为初始图像,从左到右为视频的第 1、6、11、16 帧。TI2V-Zero(有重采样)在所有场景下均优于 DynamicCrafter 和无重采样版本。

3. 初始图像来源的影响(UCF101)

论文进一步分析 "初始图像是真实图像还是合成图像" 对性能的影响(表 2):

  • TI2V-Zero-Real:初始图像为 UCF101 的真实帧;
  • TI2V-Zero-Fake:初始图像为 ModelScopeT2V 生成的合成帧;
  • 结论:TI2V-Zero-Fake 的 FVD(366.41)优于 TI2V-Zero-Real(477.19),原因是合成初始帧与预训练模型的 latent 分布更匹配;但即便用真实初始帧,TI2V-Zero 仍优于 ModelScopeT2V(FVD 985.82),证明其对初始图像来源的鲁棒性。

4.3 扩展任务验证

TI2V-Zero 的 "队列构建" 机制使其可无缝扩展到其他视频生成任务:

1. 视频补全(Video Infilling)
  • 任务:给定视频的部分帧(如奇数帧),补全缺失帧(如偶数帧);
  • 方法:将给定帧编码为 latent,构建初始队列\(S_0\),后续帧生成时滑动队列;
  • 结果:如图 3 第 6 行所示,补全帧与给定帧的时序和细节一致(如 "骑马" 任务中,补全帧的人物姿势与给定帧连贯)。
2. 长视频生成(Long Video Generation)
  • 任务:生成超过 16 帧的视频(如 128 帧);
  • 方法:通过 "逐帧生成 + 队列滑动" 的循环,持续扩展视频长度;
  • 结果:如图 6 所示,128 帧视频(每 14 帧展示一帧)可稳定保留初始图像的背景细节(如山脉形状),无明显抖动或细节丢失。

注:红色框为初始图像,文本为 "北极极光的迷人景象"。展示的是第 0、14、28、...、112 帧,可见背景山脉和极光效果始终连贯。

五、局限性与未来方向

5.1 现有局限性

  1. 依赖预训练模型能力:TI2V-Zero 的生成质量受限于预训练 T2V 模型(如 ModelScopeT2V),若预模型难以生成复杂动作(如舞蹈),TI2V-Zero 也无法突破;
  2. 生成质量缺陷:部分视频存在模糊或闪烁 artifacts,尤其在快速运动场景(如 "冲浪");
  3. 推理速度慢:逐帧生成需为每个帧单独运行完整扩散过程,16 帧视频在 Quadro RTX 6000 上需约 24.7 秒,慢于 DynamicCrafter(155 秒 / 16 帧,但需注意 TI2V-Zero 无需训练)。

5.2 未来研究方向

  1. 适配更强预训练模型:将 TI2V-Zero 扩展到更先进的 T2V 模型(如 Sora、VideoCrafter2),提升复杂场景和动作的生成能力;
  2. 后处理优化:引入视频去模糊(Blind Deblurring)、去闪烁(Deflickering)技术,改善生成质量;
  3. 加速采样:采用快速扩散采样方法(如 DPM-Solver),减少单帧生成时间,提升效率。

六、总结

TI2V-Zero 的核心创新在于 **"零样本" 适配预训练 T2V 扩散模型 **:通过 "重复 - 滑动" 策略强制时序注意力利用初始图像,DDPM 逆过程保证时序连贯性,重采样提升细节保真度,三者结合实现了无需训练的图像引导视频生成。实验证明,其在领域特定和开放域任务上均优于现有 SOTA 模型,且可扩展到视频补全、长视频生成等任务。

该工作为 "扩散模型的零样本条件适配" 提供了新思路 ------ 无需修改模型结构或训练参数,仅通过采样过程调制即可解锁新能力,为后续低资源视频生成研究提供了重要参考。

相关推荐
Jason_zhao_MR3 小时前
RK3576机器人核心:三屏异显+八路摄像头,重塑机器人交互与感知
linux·人工智能·嵌入式硬件·计算机视觉·机器人·嵌入式·交互
mmq在路上4 小时前
YOLO-World: Real-Time Open-Vocabulary Object Detection论文阅读
人工智能·计算机视觉·目标跟踪
柳鲲鹏5 小时前
全网首发:OpenCV防抖处理后,画面数据的存储及复制到原画面
人工智能·opencv·计算机视觉
Fuxiao___6 小时前
OpenVLA-OFT+ 在真实世界 ALOHA 机器人任务中的应用
人工智能·深度学习·计算机视觉
AI妈妈手把手11 小时前
YOLO V2全面解析:更快、更准、更强大的目标检测算法
人工智能·算法·yolo·目标检测·计算机视觉·yolo v2
柠檬甜不甜呀12 小时前
海康相机与机器人标定
数码相机·计算机视觉·机器人
B站计算机毕业设计之家13 小时前
计算机视觉:基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的零售柜商品检测识别系统(Python+PySide6界面+训练代码)(源码+文档)✅
人工智能·深度学习·opencv·yolo·计算机视觉·零售·1024程序员节
CoovallyAIHub14 小时前
一致性模型:单步生成高质量图像,破解扩散模型速度瓶颈
深度学习·算法·计算机视觉
音视频牛哥14 小时前
AI智能体从系统智能到生态智能:SmartMediaKit 如何成为智能体时代的视频神经系统
人工智能·计算机视觉·音视频·大牛直播sdk·多智能体协同·rtsp播放器rtmp播放器·视频感知低延迟音视频