cvpr论文学习《Generative Image Dynamics》

2024年cvpr最佳论文https://arxiv.org/pdf/2309.07906

CVPR 2024的最佳论文《Generative Image Dynamics》提出了一种从单张静态图像生成逼真、连续运动视频的技术,其核心在于将运动建模在频域,并通过扩散模型进行预测。

下面这个流程图概括了它的核心工作流程,你可以先快速了解全貌:

flowchart TD

A输入:静态图像 --> B{运动预测模块}

B --> C(潜在扩散模型 LDM)

C --> D输出:频谱体\每像素运动轨迹的频域表示

D --> E{基于图像的渲染模块}

E --> F逆傅里叶变换\频谱体→时域位移场

F --> G多尺度特征提取与软光栅化

G --> H图像合成网络

H --> I输出:动态视频帧

核心模块详解

运动预测模块:从图像到频谱体

这个模块的目标是分析一张静态图片,预测出图中每个像素点未来会如何运动。关键在于,它不是在时域中直接预测每一帧的位移,而是转换思路,在频域中描述运动。

频谱体(Spectral Volume)表示:论文用傅里叶级数来描述运动。对于每个像素点,其运动轨迹被转换为一组复数傅里叶系数,即"频谱体" 。这基于一个观察:自然界的振荡运动(如风吹树叶)大多由低频主导,功率谱随频率升高呈指数衰减 。因此,仅用前K=16个频率分量就能有效捕捉大多数自然运动,极大降低了计算量 。

神经随机运动纹理的表示

时域到频域的转换:对于每个像素点p,其在T个时间点上的运动轨迹(即一系列二维位移向量)F(p) = {F₁(p), F₂(p), ..., F_T(p)},可以通过快速傅里叶变换(FFT)转换为频域表示,即一组傅里叶系数S(p) = {S_f₀(p), S_f₁(p), ..., S_f_{K-1}(p)} 。每个频率f_k对应的系数S_f_k(p)是一个复数,需要4个标量来表示其在x和y方向上的振幅和相位信息 。

频率自适应归一化(Frequency Adaptive Normalization):不同频率的傅里叶系数幅度差异巨大。直接训练扩散模型预测这些值会不稳定。解决方法是对每个频率的系数用其训练数据中的95th百分位数进行归一化,并应用幂变换防止高频信息丢失 。

频率协调去噪(Frequency-coordinated Denoising):扩散模型(U-Net)并非独立预测每个频率,而是先预测单个频率切片,然后通过交叉注意力机制协调所有K个频率的预测,确保不同频带运动在时间上一致 。

基于图像的渲染模块:从运动到视频

得到频谱体后,需要将其转换回实际的视频帧。

时域转换:通过逆傅里叶变换,将频谱体转换为一系列时域的2D运动位移场,指明每个像素在不同时间点的移动方向与距离 2 3 。

软光栅化(Softmax Splatting):直接根据位移场扭曲原图会产生空洞或重叠。该模块的解决方法是:先从原图提取多尺度特征,然后用预测的运动场对特征进行前向扭曲("光栅化"),并采用运动幅度加权的softmax融合重叠像素,最后通过一个图像合成网络解码为最终帧 1 。这能合成出时间连贯且视觉高质量的动画。

💡 技术优势与创新点

长期时间一致性:在频域建模运动,从根本上保证了生成的动画长期稳定、不漂移,解决了自回归生成模型在长序列生成中常见的闪烁或失真问题 。

数据与计算高效:低频主导的特性使模型仅需预测少量频率系数即可表征长序列运动,比逐帧生成视频的方法计算效率高很多 。

强大的可控性与交互性:频谱体可解释为图像空间的模态基,能实现"拖动交互" ,也方便通过调整系数振幅控制运动强度或通过插值制作慢动作效果 。

🎯 主要应用场景

动态内容创作:将静态风景、物品照片转化为无缝循环视频,用于社交媒体、数字艺术或动态壁纸 。

交互式媒体:用户可通过拖动与图片元素互动,提升教育、电商展示或数字娱乐体验 。

视频编辑与增强:为现有视频补帧或稳定运动,或编辑生成的运动模式 。

其他讲解。可以看源代码学习

https://blog.csdn.net/amusi1994/article/details/133154255

相关推荐
happymaker062611 小时前
SpringBoot学习日记——DAY06(整合MyBatisPlus的其他功能)
java·spring boot·学习
星夜夏空9912 小时前
FreeRTOS学习(3)——FreeRTOS的移植与剪裁
学习
嵌入式×边缘AI:打怪升级日志12 小时前
硬件清单与学习进度存档
学习
Engineer邓祥浩14 小时前
软件设计师备考 第0章 题型分布、示例、学习路线
学习·职场和发展
楷哥爱开发14 小时前
Facebook解封指南:4种封禁类型及其原因(附对应申诉方法)
网络·学习·安全
吃好睡好便好14 小时前
矩阵的乘法运算
数据结构·人工智能·学习·线性代数·算法·matlab·矩阵
水木流年追梦15 小时前
大模型入门-大模型优化方法1
人工智能·学习·算法·机器学习·正则表达式
摇滚侠16 小时前
IDEA 新建 Java 项目 学习 Java SE
java·学习·intellij-idea
叶~小兮16 小时前
K8s常用组件学习笔记
笔记·学习·kubernetes
星恒随风16 小时前
从零开始理解 ResNet(上):为什么 CNN 需要“残差连接”?
人工智能·笔记·神经网络·学习·cnn