数字人|通过语音和图片来创建高质量的视频

简介

arXiv上的计算机视觉领域论文:

AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation

AniPortrait:照片级真实感肖像动画的音频驱动合成

核心内容围绕一种新的人像动画合成框架展开。

  1. 研究内容
    • 提出 AniPortrait 框架:用于生成由音频和参考肖像图像驱动的高质量动画。
    • 实现方法:分2个阶段实现
      • 第一阶段,从音频中提取 3D 中间表示,并将其投影到 2D 面部标志点序列;
      • 第二阶段,利用强大的扩散模型结合运动模块,将标志点序列转换为逼真且时间上连贯的肖像动画。
  2. 研究成果
    • 性能优势:实验表明 AniPortrait 在面部自然度、姿势多样性和视觉质量方面表现优异,能提供更好的感知体验。
    • 应用潜力:该方法在灵活性和可控性方面有很大潜力,可有效应用于面部运动编辑、人脸重演等领域。

深度解读

AniPortrait旨在通过音频和一张参考肖像图像来创建高质量的动画视频。这个过程被设计为两个主要阶段:

Audio2Lmk(音频到标志)和Lmk2Video(标志到视频)。

第一阶段--Audio2Lmk:

系统从音频输入中提取3D面部网格和头部姿势,并将这些信息投影到一系列2D面部标志点上。这一阶段的关键在于能够捕捉复杂的面部表情和嘴唇运动,同时还能与音频节奏同步地生成头部动作。

具体来说,在Audio2Lmk阶段,研究人员使用了预训练的wav2vec模型来提取音频特征,这有助于准确识别发音和语调,这对于生成逼真的面部动画至关重要。

然后,他们利用一个简单的两层全连接网络将这些特征转换为对应的3D面部网格。为了处理音频转换为头部姿势的任务,他们同样采用了wav2vec作为主干网络,但没有共享权重,因为头部运动更依赖于音频的节奏和语调。

第二阶段--Audio2Lmk:

系统采用了一个鲁棒扩散模型结合一个运动模块,将面部标志序列转化为时间一致且逼真的动画肖像。这里的设计灵感来源于AnimateAnyone项目,使用了SD1.5作为骨干网络,并整合了一个反映SD1.5结构的RefNet来提取参考图像的外观信息并将其集成到主干中。这种策略确保了在整个输出视频中保持一致的脸部ID信息。

值得注意的是,尽管AniPortrait取得了显著成就,但在实验过程中也遇到了一些挑战。例如,虽然中间的三维表示增强了对扩散模型生成的控制能力,但它也可能限制表达的多样性。

最后,AniPortrait不仅展示了其在创造具有高面部自然度、姿态多样性和视觉质量的动画方面的优越性,而且还揭示了其在灵活性和可控性方面的巨大潜力,这使得它可以在诸如面部运动编辑或面部重演等领域得到有效应用。通过发布代码和模型权重,研究团队希望促进进一步的研究和技术发展。

总之,AniPortrait代表了多媒体处理领域的一项重要进展,尤其是在音频驱动的肖像动画合成方面。它提供了一种创新的方法来解决传统方法在生成高质量内容时遇到的问题,并为未来的相关研究提供了有价值的参考。

如果您有兴趣深入了解AniPortrait的具体实现细节或者想要尝试自己动手复现这个项目,可以访问GitHub上的官方仓库获取更多的资源和支持。

github:https://github.com/Zejun-Yang/AniPortrait

原文链接:[2403.17694] AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation

相关推荐
无声旅者3 小时前
AI 模型分类全解:特性与选择指南
人工智能·ai·ai大模型
孔令飞5 小时前
Go 为何天生适合云原生?
ai·云原生·容器·golang·kubernetes
hao_wujing6 小时前
使用有限计算实现视频生成模型的高效训练
音视频
追随远方7 小时前
Android音频开发:Speex固定帧与变长帧编解码深度解析
android·音视频
CoderJia程序员甲7 小时前
MCP 技术完全指南:微软开源项目助力 AI 开发标准化学习
microsoft·ai·开源·ai教程·mcp
wang_yb7 小时前
当机器学习遇见压缩感知:用少量数据重建完整世界
ai·databook
aqi008 小时前
FFmpeg开发笔记(六十四)使用国产的RedPlayer播放器观看网络视频
android·ffmpeg·音视频·直播·流媒体
宝桥南山9 小时前
Microsoft Copilot Studio - 尝试一下Agent
microsoft·ai·微软·copilot·rpa·low-code
Johny_Zhao11 小时前
华为MAAS、阿里云PAI、亚马逊AWS SageMaker、微软Azure ML各大模型深度分析对比
linux·人工智能·ai·信息安全·云计算·系统运维
武子康11 小时前
大数据-277 Spark MLib - 基础介绍 机器学习算法 Gradient Boosting GBDT算法原理 高效实现
大数据·人工智能·算法·机器学习·ai·spark-ml·boosting