数字人｜通过语音和图片来创建高质量的视频

简介

arXiv上的计算机视觉领域论文：

AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation

AniPortrait：照片级真实感肖像动画的音频驱动合成

核心内容围绕一种新的人像动画合成框架展开。

研究内容
- 提出 AniPortrait 框架：用于生成由音频和参考肖像图像驱动的高质量动画。
- 实现方法：分2个阶段实现
  - 第一阶段，从音频中提取 3D 中间表示，并将其投影到 2D 面部标志点序列；
  - 第二阶段，利用强大的扩散模型结合运动模块，将标志点序列转换为逼真且时间上连贯的肖像动画。
研究成果
- 性能优势：实验表明 AniPortrait 在面部自然度、姿势多样性和视觉质量方面表现优异，能提供更好的感知体验。
- 应用潜力：该方法在灵活性和可控性方面有很大潜力，可有效应用于面部运动编辑、人脸重演等领域。

深度解读

AniPortrait旨在通过音频和一张参考肖像图像来创建高质量的动画视频。这个过程被设计为两个主要阶段：

Audio2Lmk（音频到标志）和Lmk2Video（标志到视频）。

第一阶段--Audio2Lmk：

系统从音频输入中提取3D面部网格和头部姿势，并将这些信息投影到一系列2D面部标志点上。这一阶段的关键在于能够捕捉复杂的面部表情和嘴唇运动，同时还能与音频节奏同步地生成头部动作。

具体来说，在Audio2Lmk阶段，研究人员使用了预训练的wav2vec模型来提取音频特征，这有助于准确识别发音和语调，这对于生成逼真的面部动画至关重要。

然后，他们利用一个简单的两层全连接网络将这些特征转换为对应的3D面部网格。为了处理音频转换为头部姿势的任务，他们同样采用了wav2vec作为主干网络，但没有共享权重，因为头部运动更依赖于音频的节奏和语调。

第二阶段--Audio2Lmk：

系统采用了一个鲁棒扩散模型结合一个运动模块，将面部标志序列转化为时间一致且逼真的动画肖像。这里的设计灵感来源于AnimateAnyone项目，使用了SD1.5作为骨干网络，并整合了一个反映SD1.5结构的RefNet来提取参考图像的外观信息并将其集成到主干中。这种策略确保了在整个输出视频中保持一致的脸部ID信息。

值得注意的是，尽管AniPortrait取得了显著成就，但在实验过程中也遇到了一些挑战。例如，虽然中间的三维表示增强了对扩散模型生成的控制能力，但它也可能限制表达的多样性。

最后，AniPortrait不仅展示了其在创造具有高面部自然度、姿态多样性和视觉质量的动画方面的优越性，而且还揭示了其在灵活性和可控性方面的巨大潜力，这使得它可以在诸如面部运动编辑或面部重演等领域得到有效应用。通过发布代码和模型权重，研究团队希望促进进一步的研究和技术发展。

总之，AniPortrait代表了多媒体处理领域的一项重要进展，尤其是在音频驱动的肖像动画合成方面。它提供了一种创新的方法来解决传统方法在生成高质量内容时遇到的问题，并为未来的相关研究提供了有价值的参考。

如果您有兴趣深入了解AniPortrait的具体实现细节或者想要尝试自己动手复现这个项目，可以访问GitHub上的官方仓库获取更多的资源和支持。

github：https://github.com/Zejun-Yang/AniPortrait

原文链接：[2403.17694] AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation