cvpr论文学习《Generative Image Dynamics》

2024年cvpr最佳论文https://arxiv.org/pdf/2309.07906

CVPR 2024的最佳论文《Generative Image Dynamics》提出了一种从单张静态图像生成逼真、连续运动视频的技术,其核心在于将运动建模在频域,并通过扩散模型进行预测。

下面这个流程图概括了它的核心工作流程,你可以先快速了解全貌:

flowchart TD

A输入:静态图像 --> B{运动预测模块}

B --> C(潜在扩散模型 LDM)

C --> D输出:频谱体\每像素运动轨迹的频域表示

D --> E{基于图像的渲染模块}

E --> F逆傅里叶变换\频谱体→时域位移场

F --> G多尺度特征提取与软光栅化

G --> H图像合成网络

H --> I输出:动态视频帧

核心模块详解

运动预测模块:从图像到频谱体

这个模块的目标是分析一张静态图片,预测出图中每个像素点未来会如何运动。关键在于,它不是在时域中直接预测每一帧的位移,而是转换思路,在频域中描述运动。

频谱体(Spectral Volume)表示:论文用傅里叶级数来描述运动。对于每个像素点,其运动轨迹被转换为一组复数傅里叶系数,即"频谱体" 。这基于一个观察:自然界的振荡运动(如风吹树叶)大多由低频主导,功率谱随频率升高呈指数衰减 。因此,仅用前K=16个频率分量就能有效捕捉大多数自然运动,极大降低了计算量 。

神经随机运动纹理的表示

时域到频域的转换:对于每个像素点p,其在T个时间点上的运动轨迹(即一系列二维位移向量)F(p) = {F₁(p), F₂(p), ..., F_T(p)},可以通过快速傅里叶变换(FFT)转换为频域表示,即一组傅里叶系数S(p) = {S_f₀(p), S_f₁(p), ..., S_f_{K-1}(p)} 。每个频率f_k对应的系数S_f_k(p)是一个复数,需要4个标量来表示其在x和y方向上的振幅和相位信息 。

频率自适应归一化(Frequency Adaptive Normalization):不同频率的傅里叶系数幅度差异巨大。直接训练扩散模型预测这些值会不稳定。解决方法是对每个频率的系数用其训练数据中的95th百分位数进行归一化,并应用幂变换防止高频信息丢失 。

频率协调去噪(Frequency-coordinated Denoising):扩散模型(U-Net)并非独立预测每个频率,而是先预测单个频率切片,然后通过交叉注意力机制协调所有K个频率的预测,确保不同频带运动在时间上一致 。

基于图像的渲染模块:从运动到视频

得到频谱体后,需要将其转换回实际的视频帧。

时域转换:通过逆傅里叶变换,将频谱体转换为一系列时域的2D运动位移场,指明每个像素在不同时间点的移动方向与距离 2 3 。

软光栅化(Softmax Splatting):直接根据位移场扭曲原图会产生空洞或重叠。该模块的解决方法是:先从原图提取多尺度特征,然后用预测的运动场对特征进行前向扭曲("光栅化"),并采用运动幅度加权的softmax融合重叠像素,最后通过一个图像合成网络解码为最终帧 1 。这能合成出时间连贯且视觉高质量的动画。

💡 技术优势与创新点

长期时间一致性:在频域建模运动,从根本上保证了生成的动画长期稳定、不漂移,解决了自回归生成模型在长序列生成中常见的闪烁或失真问题 。

数据与计算高效:低频主导的特性使模型仅需预测少量频率系数即可表征长序列运动,比逐帧生成视频的方法计算效率高很多 。

强大的可控性与交互性:频谱体可解释为图像空间的模态基,能实现"拖动交互" ,也方便通过调整系数振幅控制运动强度或通过插值制作慢动作效果 。

🎯 主要应用场景

动态内容创作:将静态风景、物品照片转化为无缝循环视频,用于社交媒体、数字艺术或动态壁纸 。

交互式媒体:用户可通过拖动与图片元素互动,提升教育、电商展示或数字娱乐体验 。

视频编辑与增强:为现有视频补帧或稳定运动,或编辑生成的运动模式 。

其他讲解。可以看源代码学习

https://blog.csdn.net/amusi1994/article/details/133154255

相关推荐
通信小呆呆3 天前
当算法有了“五感”:多模态数据融合如何向人体感官协同学习?
人工智能·学习·算法·机器学习·机器人
H__Rick3 天前
自动对焦学习-3
人工智能·学习·计算机视觉
Daisy Lee3 天前
量化学习-第1章-什么是量化金融
学习·金融·datawhale
Alsn863 天前
等待学习-学习目录:Docker 容器安全攻防
学习·安全·docker
YM52e3 天前
买菜计算器小应用 - HarmonyOS ArkUI 开发实战-PC版本
学习·华为·harmonyos·鸿蒙·鸿蒙系统
小雨下雨的雨3 天前
HarmonyOS ArkUI训练营入门-组件掌握系列-Animation 动画效果实现-PC版本
学习·华为·harmonyos·鸿蒙
cqbzcsq3 天前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息
YangYang9YangYan3 天前
2026初入职场学习数据分析的价值
学习·数据挖掘·数据分析
guslegend3 天前
理论学习:什么是 Coding Agent?
学习
自传.3 天前
尚硅谷 Vibe Coding|第三章(1) Claude Code深度使用与进阶技巧 学习笔记
笔记·学习·尚硅谷·vibecoding