CVPR 2024中有哪些值得关注的视频生成和视频编辑方向的论文？

Diffusion Models视频生成-博客汇总
前言：轰轰烈烈的CVPR 2024所有accept paper已经全部公开，随着Sora的爆火，视频生成和视频编辑是目前计算机视觉最火热的方向，受到了很多人的关注。这篇博客就整理盘点一下有哪些值得关注的视频生成和视频编辑方向的论文？值得做这个方向的小伙伴收藏学习。

视频生成

[A Recipe for Scaling up Text-to-Video Generation with Text-free Videos](#A Recipe for Scaling up Text-to-Video Generation with Text-free Videos)

[DisCo: Disentangled Control for Realistic Human Dance Generation](#DisCo: Disentangled Control for Realistic Human Dance Generation)

[MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model](#MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model)

[Make Your Dream A Vlog](#Make Your Dream A Vlog)

[Panacea: Panoramic and Controllable Video Generation for Autonomous Driving](#Panacea: Panoramic and Controllable Video Generation for Autonomous Driving)

[Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners](#Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners)

[SyncTalk: The Devil is in the Synchronization for Talking Head Synthesis](#SyncTalk: The Devil is in the Synchronization for Talking Head Synthesis)

[VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models](#VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models)

[VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models](#VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models)

视频编辑

[CoDeF: Content Deformation Fields for Temporally Consistent Video Processing](#CoDeF: Content Deformation Fields for Temporally Consistent Video Processing)

[VidToMe: Video Token Merging for Zero-Shot Video Editing](#VidToMe: Video Token Merging for Zero-Shot Video Editing)

视频生成

A Recipe for Scaling up Text-to-Video Generation with Text-free Videos

https://arxiv.org/abs/2312.15770

基于扩散的文本到视频生成在过去一年里取得了令人瞩目的进展，但仍然落后于文本到图像生成。主要原因之一是公开可用数据的规模有限（例如，WebVid10M中有1000万个视频文本对，而LAION中有50亿个图像文本对），考虑到视频字幕的高成本。相反，从YouTube等视频平台收集无标签剪辑可能会容易得多。受此启发，我们提出了一种新颖的文本到视频生成框架，称为TF-T2V，它可以直接学习无文本视频。其背后的基本原理是将文本解码过程与时间建模分离。为此，我们采用了内容分支和运动分支，这两个分支共享权重并共同优化。遵循这样的流程，我们研究了训练集规模翻倍（即，仅视频的WebVid10M）对性能的影响，以及一些随机收集的无文本视频，并鼓励观察到性能的改善（FID从9.67降至8.19，FVD从484降至441），证明了我们方法的可扩展性。我们还发现，在重新引入一些文本标签进行训练后，我们的模型可以持续获得性能提升（FID从8.19降至7.64，FVD从441降至366）。最后，我们在本土文本到视频生成和组合视频合成范式上验证了我们理念的有效性和通用性。

DisCo: Disentangled Control for Realistic Human Dance Generation

https://arxiv.org/abs/2307.00040

生成式人工智能在计算机视觉领域取得了显著进展，尤其是在文本驱动的图像/视频合成（T2I/T2V）方面。尽管取得了显著的进步，但在以人为中心的内容合成，如逼真舞蹈生成方面仍然具有挑战性。目前的方法主要为人体运动转移而设计，在面对现实世界的舞蹈场景（例如，社交媒体舞蹈）时会遇到困难，这些场景需要在广泛的姿势和复杂的人体细节上进行泛化。在本文中，我们摒弃了传统的人体运动转移范式，并强调了社交媒体环境中人类舞蹈内容合成的两个额外关键属性：（i）泛化能力：模型应能超越通用人类视角以及未见过的人类主体、背景和姿势；（ii）组合性：它应该允许不同来源的已见/未见主体、背景和姿势无缝组合。为了应对这些挑战，我们引入了DisCo，它包括一个具有解耦控制的新颖模型架构，以改善舞蹈合成的组合能力，并且有效的人类属性预训练以更好地泛化到未见过的人类。广泛的定性和定量结果证明DisCo可以生成具有多样外观和灵活动作的高质量人类舞蹈图像和视频。

MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model

https://arxiv.org/abs/2311.16498

本文研究了人像动画任务，其目标是生成一个特定参考身份的视频，并遵循一个特定的运动序列。现有的动画作品通常采用帧变形技术将参考图像动画化成目标运动。尽管取得了合理的结果，但这些方法由于缺乏时间建模和参考身份的保留不足，在整个动画过程中保持时间一致性方面面临挑战。在这项工作中，我们引入了MagicAnimate，一个基于扩散的框架，旨在增强时间连贯性，忠实保留参考图像，并提高动画的真实度。为了实现这一目标，我们首先开发了一个视频扩散模型来编码时间信息。其次，为了保持帧之间的外观一致性，我们引入了一个新颖的外观编码器来保留参考图像的复杂细节。利用这两种创新，我们进一步采用了一种简单的视频融合技术，以鼓励长视频动画的平滑过渡。实证结果证明了我们方法在两个基准测试上超过了基线方法的优越性。值得注意的是，我们的方法在挑战性的TikTok舞蹈数据集上的视频真实度方面比最强基线高出38%以上。

Make Your Dream A Vlog

https://arxiv.org/abs/2401.09414

在这项工作中，我们提出了Vlogger，这是一个通用的人工智能系统，用于根据用户描述生成分钟级别的视频博客（即vlog）。与几秒钟的短视频不同，vlog通常包含复杂的故事情节和多样化的场景，这对于大多数现有的视频生成方法来说是一个挑战。为了突破这一瓶颈，我们的Vlogger巧妙地利用大型语言模型（LLM）作为导演，并将vlog的长视频生成任务分解为四个关键阶段，在这些阶段中，我们调用各种基础模型来扮演vlog专业人士的关键角色，包括（1）剧本，（2）演员，（3）秀制作人，和（4）配音。通过这种模仿人类的设计理念，我们的Vlogger可以通过自上而下的规划和自下而上的拍摄的可解释合作来生成vlog。此外，我们引入了一个新颖的视频扩散模型，ShowMaker，它在我们的Vlogger中充当摄影师，用于生成每个拍摄场景的视频片段。通过将剧本和演员作为文本和视觉提示仔细地结合起来，它可以有效地增强片段中的空间-时间连贯性。此外，我们为ShowMaker设计了一个简洁的混合训练范式，提高了其在T2V生成和预测方面的容量。最后，广泛的实验表明，我们的方法在零样本T2V生成和预测任务上达到了最先进的性能。更重要的是，Vlogger能够从开放世界的描述中生成超过5分钟的vlog，而不会在剧本和演员的视频连贯性上有所损失。

Panacea: Panoramic and Controllable Video Generation for Autonomous Driving

https://arxiv.org/abs/2311.16813

自动驾驶领域日益需要高质量的标注训练数据。在本文中，我们提出了一种创新的方法Panacea，用于在驾驶场景中生成全景和可控视频，能够产生无限数量的多样化、关键于自动驾驶进步的标注样本。Panacea解决了两个关键挑战："一致性"和"可控性"。一致性确保了时间和跨视图的连贯性，而可控性确保了生成内容与相应标注的对齐。我们的方法整合了新颖的4D注意力机制和两阶段生成流程来维持连贯性，并辅以ControlNet框架，通过鸟瞰图（BEV）布局进行精细控制。在nuScenes数据集上对Panacea进行的广泛定性和定量评估证明了其在生成高质量多视图驾驶场景视频方面的有效性。这项工作通过有效地增强用于高级BEV感知技术的培训数据集，显著推进了自动驾驶领域的发展。

Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners

https://arxiv.org/abs/2308.13712

我们提出了残差去噪扩散模型（RDDM），这是一种新颖的双重扩散过程，将传统的单一去噪扩散过程解耦为残差扩散和噪声扩散。这种双重扩散框架通过引入残差，将最初对图像恢复不可解释的基于去噪的扩散模型扩展为一个统一且可解释的模型，用于图像生成和恢复。具体来说，我们的残差扩散代表从目标图像到降级输入图像的方向性扩散，并明确指导图像恢复的反向生成过程，而噪声扩散代表扩散过程中的随机扰动。残差优先考虑确定性，而噪声强调多样性，使RDDM能够有效地统一具有不同确定性或多样性要求的任务，如图像生成和恢复。我们通过系数变换证明了我们的采样过程与DDPM和DDIM的一致性，并提出了一种部分路径独立的生成过程，以更好地理解反向过程。值得注意的是，我们的RDDM使一个通用的UNet，仅通过ℓ1损失和批量大小为1进行训练，就能与最先进的图像恢复方法相媲美。我们提供了代码和预训练模型，以鼓励对我们的创新框架进行进一步的探索、应用和发展。

SyncTalk: The Devil is in the Synchronization for Talking Head Synthesis

https://arxiv.org/abs/2311.17590

在合成逼真的、由语音驱动的说话头部视频中实现高同步性是一个重大挑战。传统的生成对抗网络（GAN）难以保持一致的面部身份，而神经辐射场（NeRF）方法虽然可以解决这个问题，但通常会产生不匹配的唇部动作、不充分的面部表情和不稳定的头部姿势。一个逼真的说话头部需要主题身份、唇部动作、面部表情和头部姿势的同步协调。缺乏这些同步性是一个根本性的缺陷，导致结果不逼真和人工。为了解决同步性这一关键问题，我们将其识别为创建逼真说话头部的"魔鬼"，我们引入了SyncTalk。这种基于NeRF的方法有效地保持了主题身份，增强了说话头部合成中的同步性和逼真度。SyncTalk采用面部同步控制器将唇部动作与语音对齐，并创新性地使用3D面部混合形状模型来捕捉准确的面部表情。我们的头部同步稳定器优化头部姿势，实现更自然的头部动作。肖像同步生成器恢复头发细节，并将生成的头部与身体融合，提供无缝的视觉体验。广泛的实验和用户研究证明，SyncTalk在同步性和逼真度方面优于最先进的方法。

VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models

https://arxiv.org/abs/2401.09047

文本到视频的生成旨在基于给定的提示生成视频。最近，几个商业视频模型已经能够生成具有最小噪声、出色细节和高审美评分的合理视频。然而，这些模型依赖于大规模、经过良好筛选、高质量的视频，而这些视频对社区来说是不可获取的。许多现有的研究工作使用低质量的WebVid-10M数据集来训练模型，却难以生成高质量的视频，因为模型被优化以适应WebVid-10M。在这项工作中，我们探索了从稳定扩散（Stable Diffusion）扩展的视频模型的训练方案，并研究了利用低质量视频和合成的高质量图像来获得高质量视频模型的可行性。我们首先分析了视频模型的空间和时间模块与向低质量视频分布偏移之间的联系。我们观察到，所有模块的完整训练比仅训练时间模块导致空间和时间模块之间的耦合更强。基于这种更强的耦合，我们通过使用高质量图像微调空间模块来转移分布到更高质量，而不降低运动质量，从而实现了一个通用的高质量视频模型。我们进行了评估，以展示所提出方法的优越性，特别是在画面质量、运动和概念组合方面。

VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models

https://arxiv.org/abs/2312.00845

文本到视频的扩散模型显著推进了视频生成技术的发展。然而，定制这些模型以生成具有特定动作的视频呈现出一个重大挑战。具体来说，它们在 (a) 准确重现目标视频中的动作，以及 (b) 创建多样化的视觉变化方面遇到了障碍。例如，将静态图像定制方法直接扩展到视频通常会导致外观和动作数据的复杂纠缠。为了解决这个问题，我们在这里提出了视频动作定制（VMC）框架，这是一种新颖的一次性调整方法，旨在调整视频扩散模型中的时间注意力层。我们的方法引入了一个新颖的动作蒸馏目标，使用连续帧之间的残差向量作为动作参考。扩散过程随后保留了低频动作轨迹，同时减轻了图像空间中与动作无关的高频噪声。我们在多样化的真实世界动作和情境中，针对最先进的视频生成模型验证了我们的方法。

视频编辑

CoDeF: Content Deformation Fields for Temporally Consistent Video Processing

https://arxiv.org/abs/2308.07926

我们提出了内容变形场（CoDeF）作为一种新型的视频表示方法，它由一个规范内容场组成，该场聚合了整个视频中的静态内容，以及一个时间变形场，记录了从规范图像（即，从规范内容场渲染而来）到时间轴上每个单独帧的变换。针对一个目标视频，这两个场通过一个精心设计的渲染管线共同优化以重建视频。我们明智地在优化过程中引入了一些正则化，促使规范内容场从视频中继承语义（例如，对象的形状）。通过这样的设计，CoDeF自然支持将图像算法提升到视频处理，也就是说，人们可以将图像算法应用于规范图像，并在时间变形场的帮助下毫不费力地将结果传播到整个视频。我们通过实验展示了CoDeF能够将图像到图像的翻译提升到视频到视频的翻译，并将关键点检测提升到关键点跟踪，而无需任何训练。更重要的是，由于我们的提升策略仅在一张图像上部署算法，我们实现了与现有视频到视频翻译方法相比更优越的跨帧一致性，并设法跟踪像水和烟雾这样的非刚性对象。项目页面可以在以下https URL找到。

VidToMe: Video Token Merging for Zero-Shot Video Editing

https://arxiv.org/abs/2312.10656

我们提出了内容变形场（CoDeF）作为一种新型的视频表示方法，它由一个规范内容场组成，该场聚合了整个视频中的静态内容，以及一个时间变形场，记录了从规范图像（即，从规范内容场渲染而来）到时间轴上每个单独帧的变换。针对一个目标视频，这两个场通过一个精心设计的渲染管线共同优化以重建视频。我们明智地在优化过程中引入了一些正则化，促使规范内容场从视频中继承语义（例如，对象的形状）。通过这样的设计，CoDeF自然支持将图像算法提升到视频处理，也就是说，人们可以将图像算法应用于规范图像，并在时间变形场的帮助下毫不费力地将结果传播到整个视频。我们通过实验展示了CoDeF能够将图像到图像的翻译提升到视频到视频的翻译，并将关键点检测提升到关键点跟踪，而无需任何训练。更重要的是，由于我们的提升策略仅在一张图像上部署算法，我们实现了与现有视频到视频翻译方法相比更优越的跨帧一致性，并设法跟踪像水和烟雾这样的非刚性对象。

PS：这些工作都有公开的代码！！没有放出的代码的工作基本上无法fellow，所以就不再列出了。