数字人|通过语音和图片来创建高质量的视频

简介

arXiv上的计算机视觉领域论文:

AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation

AniPortrait:照片级真实感肖像动画的音频驱动合成

核心内容围绕一种新的人像动画合成框架展开。

  1. 研究内容
    • 提出 AniPortrait 框架:用于生成由音频和参考肖像图像驱动的高质量动画。
    • 实现方法:分2个阶段实现
      • 第一阶段,从音频中提取 3D 中间表示,并将其投影到 2D 面部标志点序列;
      • 第二阶段,利用强大的扩散模型结合运动模块,将标志点序列转换为逼真且时间上连贯的肖像动画。
  2. 研究成果
    • 性能优势:实验表明 AniPortrait 在面部自然度、姿势多样性和视觉质量方面表现优异,能提供更好的感知体验。
    • 应用潜力:该方法在灵活性和可控性方面有很大潜力,可有效应用于面部运动编辑、人脸重演等领域。

深度解读

AniPortrait旨在通过音频和一张参考肖像图像来创建高质量的动画视频。这个过程被设计为两个主要阶段:

Audio2Lmk(音频到标志)和Lmk2Video(标志到视频)。

第一阶段--Audio2Lmk:

系统从音频输入中提取3D面部网格和头部姿势,并将这些信息投影到一系列2D面部标志点上。这一阶段的关键在于能够捕捉复杂的面部表情和嘴唇运动,同时还能与音频节奏同步地生成头部动作。

具体来说,在Audio2Lmk阶段,研究人员使用了预训练的wav2vec模型来提取音频特征,这有助于准确识别发音和语调,这对于生成逼真的面部动画至关重要。

然后,他们利用一个简单的两层全连接网络将这些特征转换为对应的3D面部网格。为了处理音频转换为头部姿势的任务,他们同样采用了wav2vec作为主干网络,但没有共享权重,因为头部运动更依赖于音频的节奏和语调。

第二阶段--Audio2Lmk:

系统采用了一个鲁棒扩散模型结合一个运动模块,将面部标志序列转化为时间一致且逼真的动画肖像。这里的设计灵感来源于AnimateAnyone项目,使用了SD1.5作为骨干网络,并整合了一个反映SD1.5结构的RefNet来提取参考图像的外观信息并将其集成到主干中。这种策略确保了在整个输出视频中保持一致的脸部ID信息。

值得注意的是,尽管AniPortrait取得了显著成就,但在实验过程中也遇到了一些挑战。例如,虽然中间的三维表示增强了对扩散模型生成的控制能力,但它也可能限制表达的多样性。

最后,AniPortrait不仅展示了其在创造具有高面部自然度、姿态多样性和视觉质量的动画方面的优越性,而且还揭示了其在灵活性和可控性方面的巨大潜力,这使得它可以在诸如面部运动编辑或面部重演等领域得到有效应用。通过发布代码和模型权重,研究团队希望促进进一步的研究和技术发展。

总之,AniPortrait代表了多媒体处理领域的一项重要进展,尤其是在音频驱动的肖像动画合成方面。它提供了一种创新的方法来解决传统方法在生成高质量内容时遇到的问题,并为未来的相关研究提供了有价值的参考。

如果您有兴趣深入了解AniPortrait的具体实现细节或者想要尝试自己动手复现这个项目,可以访问GitHub上的官方仓库获取更多的资源和支持。

github:https://github.com/Zejun-Yang/AniPortrait

原文链接:[2403.17694] AniPortrait: Audio-Driven Synthesis of Photorealistic Portrait Animation

相关推荐
哥布林学者1 天前
吴恩达深度学习课程五:自然语言处理 第二周:词嵌入(四)分层 softmax 和负采样
深度学习·ai
陆研一1 天前
2026国内无痛使用Gemini 3与GPT-5.2
人工智能·ai·chatgpt
ting_zh1 天前
音频录制与播放-STM32F779I-EVAL
stm32·嵌入式硬件·音视频
俊哥V2 天前
[本周看点]AI算力扩张的“隐形瓶颈”——电网接入为何成为最大制约?
人工智能·ai
~kiss~2 天前
大模型分词tiktoken、BPE、Sliding Window、Stride、DataLoader批次
ai
罗兰Yolanda2 天前
影视后期全流程的核心软件及工作站配置方案推荐
计算机视觉·音视频
DO_Community2 天前
DigitalOcean携手Persistent达成战略合作,让 AI 更亲民、更易扩展
大数据·人工智能·ai·llm·区块链
程序员泠零澪回家种桔子2 天前
MCP协议(Model Context Protocol)及其在AI大模型系统中的作用
人工智能·ai
小真zzz2 天前
2025-2026年AI PPT工具排行榜:ChatPPT的全面领先与竞品格局解析
人工智能·ai·powerpoint·ppt·aippt
啊阿狸不会拉杆2 天前
《机器学习》第六章-强化学习
人工智能·算法·机器学习·ai·机器人·强化学习·ml