OmniHuman:一张图+音频生成逼真视频

人工智能咨询培训老师叶梓 转载标明出处

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory ------ 一款革命性的大模型微调工具(限时免费)。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987

更多分享,关注视频号:sphuYAMr0pGTk27 抖音号:44185842659

现有的端到端人类动画模型在扩展到大规模视频生成任务时面临挑战,主要是因为这些模型依赖于经过严格筛选的数据集,导致大量数据被丢弃,限制了模型的泛化能力和生成效果。此外,现有方法在处理复杂场景(如全身动画、人与物体交互等)时表现不佳。

为了解决这一问题,字节跳动的研究团队提出了一种名为OmniHuman的新框架。OmniHuman基于扩散变换器(Diffusion Transformer),通过在训练阶段混合多种运动相关条件,实现了数据的扩展,并显著提升了生成视频的真实性和多样性。

OmniHuman 的核心方法

OmniHuman 的核心方法是通过一种创新的多模态混合训练策略,结合扩散变换器(Diffusion Transformer)架构,实现高质量的人类动画视频生成。

Figure 2 展示了 OmniHuman 的整体框架。OmniHuman 的框架由两部分组成:OmniHuman 模型和全条件训练策略(Omni-Conditions Training Strategy)。OmniHuman 模型基于预训练的 DiT(Diffusion Transformer)架构,能够同时接收多种模态输入(如文本、图像、音频和姿势)进行控制,从而生成逼真的人像视频。

  1. 全条件训练策略

OmniHuman 提出了一个渐进式、多阶段的训练方法,根据不同条件对运动的影响程度进行分阶段训练。这一策略遵循两个关键原则:

  • 更强条件的任务可以利用较弱条件的任务及其数据,从而实现数据扩展。例如,音频驱动的任务通常因唇部同步等要求而丢弃大量数据,而这些数据可以用于文本驱动的任务。

  • 条件越强,训练比例应越低,以避免模型过度依赖强条件,从而影响弱条件的学习效果。

  1. 多模态条件注入

OmniHuman 将条件分为两类:驱动条件和外观条件。

  • 驱动条件:音频特征通过 cross-attention 实现条件注入,姿势特征通过 Heatmap 特征编码后与 Noise 特征拼接实现条件注入,文本特征则保持了 MMDiT 的条件注入方式。

  • 外观条件:OmniHuman 没有采用单独的参考图网络(Reference Net),而是直接利用去噪声网络(Denoising Net)对输入图像进行特征编码,复用了 backbone 的特征提取方式。

  1. 多阶段训练

OmniHuman 采用多阶段训练方法,逐步引入文本、音频和姿势条件。具体来说:

  • 第一阶段仅使用文本和图像条件,不涉及音频和姿势条件。

  • 第二阶段引入音频条件,但不使用姿势条件。

  • 第三阶段同时使用所有条件,并逐步降低各条件的训练比例。

  1. 扩散变换器架构

OmniHuman 基于扩散变换器(Diffusion Transformer)架构,使用 3DVAE 将视频编码到潜在空间,并通过流匹配进行去噪训练。这种架构能够处理大规模数据,并学习自然的运动模式。

  1. 推理阶段

在推理阶段,OmniHuman 采用无分类器指导(CFG)和 CFG 退火策略,以平衡生成视频的表现力和计算效率。这种策略能够有效减少生成视频中的瑕疵(如皱纹),同时保持良好的唇部同步和动作表现力。

实验结果与性能评估

OmniHuman 在多个指标上显著优于现有方法。例如,在表1中,OmniHuman 在音频驱动的肖像动画任务中,无论是在 CelebV-HQ 还是 RAVDESS 数据集上,均在视觉质量(IQA)、唇部同步(Sync-C)和动作多样性(HKV)等指标上取得了最佳性能。在表2中,OmniHuman 在音频驱动的半身动画任务中也表现出色,尤其是在手势关键点置信度(HKC)和视觉质量(IQA)方面。

此外,表3展示了不同音频训练比例的主观比较结果。实验表明,当音频训练比例为50%时,模型在身份一致性、唇部同步精度和视觉质量方面表现最佳。

定性分析与生成效果

OmniHuman 生成的视频在视觉上更加逼真,支持多种肖像内容(如面部特写、半身、全身),并能处理复杂的人体姿态和人与物体的交互。例如,图1展示了 OmniHuman 根据输入音频和图像生成的视频帧,生成结果不仅匹配音频的节奏,还能自然地展示头部和手势动作。此外,OmniHuman 还支持多种输入形式和驱动模态(如音频驱动、视频驱动和组合驱动信号),进一步提升了模型的灵活性。

OmniHuman 通过混合多种条件信号进行训练,有效解决了人类动画数据扩展的难题,并在生成质量和多样性上取得了显著提升。该框架不仅能够生成高质量的人类视频,还支持多种输入形式和驱动模态,为未来的人类动画研究提供了新的方向。

论文链接:https://arxiv.org/pdf/2502.01061

项目链接:OmniHuman-1 Project

相关推荐
满怀101524 分钟前
【人工智能核心技术全景解读】从机器学习到深度学习实战
人工智能·python·深度学习·机器学习·tensorflow
Blossom.11832 分钟前
探索边缘计算:赋能物联网的未来
开发语言·人工智能·深度学习·opencv·物联网·机器学习·边缘计算
-曾牛34 分钟前
Spring AI 与 Hugging Face 深度集成:打造高效文本生成应用
java·人工智能·后端·spring·搜索引擎·springai·deepseek
modest —YBW1 小时前
Ollama+OpenWebUI+docker完整版部署,附带软件下载链接,配置+中文汉化+docker源,适合内网部署,可以局域网使用
人工智能·windows·docker·语言模型·llama
迪捷软件1 小时前
从概念表达到安全验证:智能驾驶功能迎来系统性规范
大数据·人工智能
非凡ghost1 小时前
透视相机:创意摄影新体验,解锁照片无限可能
人工智能·数码相机
weixin_307779131 小时前
使用FastAPI微服务在AWS EKS中构建上下文增强型AI问答系统
人工智能·python·云计算·fastapi·aws
智驱力人工智能2 小时前
AI智慧公园管理方案:用科技重塑市民的“夜游体验”
人工智能·科技·安全·边缘计算·视觉分析·人工智能云计算·垂钓检测
说私域2 小时前
线下消费经济“举步维艰”,开源AI智能名片链动2+1+S2B2C小程序线上“狂飙突进”!
人工智能·小程序·开源·零售
深蓝易网2 小时前
深度拆解!MES如何重构生产计划与排产调度全流程?
大数据·运维·人工智能·重构·架构·制造