cvpr论文学习《Generative Image Dynamics》

2024年cvpr最佳论文https://arxiv.org/pdf/2309.07906

CVPR 2024的最佳论文《Generative Image Dynamics》提出了一种从单张静态图像生成逼真、连续运动视频的技术,其核心在于将运动建模在频域,并通过扩散模型进行预测。

下面这个流程图概括了它的核心工作流程,你可以先快速了解全貌:

flowchart TD

A[输入:静态图像] --> B{运动预测模块}

B --> C(潜在扩散模型 LDM)

C --> D[输出:频谱体<br>每像素运动轨迹的频域表示]

D --> E{基于图像的渲染模块}

E --> F[逆傅里叶变换<br>频谱体→时域位移场]

F --> G[多尺度特征提取与软光栅化]

G --> H[图像合成网络]

H --> I[输出:动态视频帧]

核心模块详解

运动预测模块:从图像到频谱体

这个模块的目标是分析一张静态图片,预测出图中每个像素点未来会如何运动。关键在于,它不是在时域中直接预测每一帧的位移,而是转换思路,在频域中描述运动。

频谱体(Spectral Volume)表示:论文用傅里叶级数来描述运动。对于每个像素点,其运动轨迹被转换为一组复数傅里叶系数,即"频谱体" 。这基于一个观察:自然界的振荡运动(如风吹树叶)大多由低频主导,功率谱随频率升高呈指数衰减 。因此,仅用前K=16个频率分量就能有效捕捉大多数自然运动,极大降低了计算量 。

神经随机运动纹理的表示

时域到频域的转换:对于每个像素点p,其在T个时间点上的运动轨迹(即一系列二维位移向量)F(p) = {F₁(p), F₂(p), ..., F_T(p)},可以通过快速傅里叶变换(FFT)转换为频域表示,即一组傅里叶系数S(p) = {S_f₀(p), S_f₁(p), ..., S_f_{K-1}(p)} 。每个频率f_k对应的系数S_f_k(p)是一个复数,需要4个标量来表示其在x和y方向上的振幅和相位信息 。

频率自适应归一化(Frequency Adaptive Normalization):不同频率的傅里叶系数幅度差异巨大。直接训练扩散模型预测这些值会不稳定。解决方法是对每个频率的系数用其训练数据中的95th百分位数进行归一化,并应用幂变换防止高频信息丢失 。

频率协调去噪(Frequency-coordinated Denoising):扩散模型(U-Net)并非独立预测每个频率,而是先预测单个频率切片,然后通过交叉注意力机制协调所有K个频率的预测,确保不同频带运动在时间上一致 。

基于图像的渲染模块:从运动到视频

得到频谱体后,需要将其转换回实际的视频帧。

时域转换:通过逆傅里叶变换,将频谱体转换为一系列时域的2D运动位移场,指明每个像素在不同时间点的移动方向与距离 2 3 。

软光栅化(Softmax Splatting):直接根据位移场扭曲原图会产生空洞或重叠。该模块的解决方法是:先从原图提取多尺度特征,然后用预测的运动场对特征进行前向扭曲("光栅化"),并采用运动幅度加权的softmax融合重叠像素,最后通过一个图像合成网络解码为最终帧 1 。这能合成出时间连贯且视觉高质量的动画。

💡 技术优势与创新点

长期时间一致性:在频域建模运动,从根本上保证了生成的动画长期稳定、不漂移,解决了自回归生成模型在长序列生成中常见的闪烁或失真问题 。

数据与计算高效:低频主导的特性使模型仅需预测少量频率系数即可表征长序列运动,比逐帧生成视频的方法计算效率高很多 。

强大的可控性与交互性:频谱体可解释为图像空间的模态基,能实现"拖动交互" ,也方便通过调整系数振幅控制运动强度或通过插值制作慢动作效果 。

🎯 主要应用场景

动态内容创作:将静态风景、物品照片转化为无缝循环视频,用于社交媒体、数字艺术或动态壁纸 。

交互式媒体:用户可通过拖动与图片元素互动,提升教育、电商展示或数字娱乐体验 。

视频编辑与增强:为现有视频补帧或稳定运动,或编辑生成的运动模式 。

其他讲解。可以看源代码学习

https://blog.csdn.net/amusi1994/article/details/133154255

相关推荐
今儿敲了吗2 小时前
DS-1 传值与传引用
笔记·学习
solicitous2 小时前
历史与术语
学习·c#
悠哉悠哉愿意2 小时前
【单片机学习笔记】第十一届省赛复盘
笔记·单片机·嵌入式硬件·学习
报错小能手2 小时前
ios开发方向——Swift语言学习 为啥要学Swift?
学习·ios·swift
Xzq2105092 小时前
Mysql API学习
数据库·学习·mysql
風清掦3 小时前
【江科大STM32学习笔记-09】USART串口协议 - 9.2 USART串口数据包
笔记·stm32·单片机·嵌入式硬件·学习
happymaker06263 小时前
web前端学习日记——DAY07(js交互编程)
前端·javascript·学习
●VON3 小时前
Flutter 入门指南:从基础组件到状态管理核心机制
前端·学习·flutter·von
毕设源码-郭学长3 小时前
【开题答辩全过程】以 基于SSM Vue的中药知识学习交流网站为例,包含答辩的问题和答案
学习