2024年cvpr最佳论文https://arxiv.org/pdf/2309.07906
CVPR 2024的最佳论文《Generative Image Dynamics》提出了一种从单张静态图像生成逼真、连续运动视频的技术,其核心在于将运动建模在频域,并通过扩散模型进行预测。
下面这个流程图概括了它的核心工作流程,你可以先快速了解全貌:
flowchart TD
A[输入:静态图像] --> B{运动预测模块}
B --> C(潜在扩散模型 LDM)
C --> D[输出:频谱体<br>每像素运动轨迹的频域表示]
D --> E{基于图像的渲染模块}
E --> F[逆傅里叶变换<br>频谱体→时域位移场]
F --> G[多尺度特征提取与软光栅化]
G --> H[图像合成网络]
H --> I[输出:动态视频帧]
核心模块详解
运动预测模块:从图像到频谱体
这个模块的目标是分析一张静态图片,预测出图中每个像素点未来会如何运动。关键在于,它不是在时域中直接预测每一帧的位移,而是转换思路,在频域中描述运动。
频谱体(Spectral Volume)表示:论文用傅里叶级数来描述运动。对于每个像素点,其运动轨迹被转换为一组复数傅里叶系数,即"频谱体" 。这基于一个观察:自然界的振荡运动(如风吹树叶)大多由低频主导,功率谱随频率升高呈指数衰减 。因此,仅用前K=16个频率分量就能有效捕捉大多数自然运动,极大降低了计算量 。
神经随机运动纹理的表示
时域到频域的转换:对于每个像素点p,其在T个时间点上的运动轨迹(即一系列二维位移向量)F(p) = {F₁(p), F₂(p), ..., F_T(p)},可以通过快速傅里叶变换(FFT)转换为频域表示,即一组傅里叶系数S(p) = {S_f₀(p), S_f₁(p), ..., S_f_{K-1}(p)} 。每个频率f_k对应的系数S_f_k(p)是一个复数,需要4个标量来表示其在x和y方向上的振幅和相位信息 。
频率自适应归一化(Frequency Adaptive Normalization):不同频率的傅里叶系数幅度差异巨大。直接训练扩散模型预测这些值会不稳定。解决方法是对每个频率的系数用其训练数据中的95th百分位数进行归一化,并应用幂变换防止高频信息丢失 。
频率协调去噪(Frequency-coordinated Denoising):扩散模型(U-Net)并非独立预测每个频率,而是先预测单个频率切片,然后通过交叉注意力机制协调所有K个频率的预测,确保不同频带运动在时间上一致 。
基于图像的渲染模块:从运动到视频
得到频谱体后,需要将其转换回实际的视频帧。
时域转换:通过逆傅里叶变换,将频谱体转换为一系列时域的2D运动位移场,指明每个像素在不同时间点的移动方向与距离 2 3 。
软光栅化(Softmax Splatting):直接根据位移场扭曲原图会产生空洞或重叠。该模块的解决方法是:先从原图提取多尺度特征,然后用预测的运动场对特征进行前向扭曲("光栅化"),并采用运动幅度加权的softmax融合重叠像素,最后通过一个图像合成网络解码为最终帧 1 。这能合成出时间连贯且视觉高质量的动画。
💡 技术优势与创新点
长期时间一致性:在频域建模运动,从根本上保证了生成的动画长期稳定、不漂移,解决了自回归生成模型在长序列生成中常见的闪烁或失真问题 。
数据与计算高效:低频主导的特性使模型仅需预测少量频率系数即可表征长序列运动,比逐帧生成视频的方法计算效率高很多 。
强大的可控性与交互性:频谱体可解释为图像空间的模态基,能实现"拖动交互" ,也方便通过调整系数振幅控制运动强度或通过插值制作慢动作效果 。
🎯 主要应用场景
动态内容创作:将静态风景、物品照片转化为无缝循环视频,用于社交媒体、数字艺术或动态壁纸 。
交互式媒体:用户可通过拖动与图片元素互动,提升教育、电商展示或数字娱乐体验 。
视频编辑与增强:为现有视频补帧或稳定运动,或编辑生成的运动模式 。
其他讲解。可以看源代码学习