OmniHuman:一张图+音频生成逼真视频

人工智能咨询培训老师叶梓 转载标明出处

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory ------ 一款革命性的大模型微调工具(限时免费)。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987

更多分享,关注视频号:sphuYAMr0pGTk27 抖音号:44185842659

现有的端到端人类动画模型在扩展到大规模视频生成任务时面临挑战,主要是因为这些模型依赖于经过严格筛选的数据集,导致大量数据被丢弃,限制了模型的泛化能力和生成效果。此外,现有方法在处理复杂场景(如全身动画、人与物体交互等)时表现不佳。

为了解决这一问题,字节跳动的研究团队提出了一种名为OmniHuman的新框架。OmniHuman基于扩散变换器(Diffusion Transformer),通过在训练阶段混合多种运动相关条件,实现了数据的扩展,并显著提升了生成视频的真实性和多样性。

OmniHuman 的核心方法

OmniHuman 的核心方法是通过一种创新的多模态混合训练策略,结合扩散变换器(Diffusion Transformer)架构,实现高质量的人类动画视频生成。

Figure 2 展示了 OmniHuman 的整体框架。OmniHuman 的框架由两部分组成:OmniHuman 模型和全条件训练策略(Omni-Conditions Training Strategy)。OmniHuman 模型基于预训练的 DiT(Diffusion Transformer)架构,能够同时接收多种模态输入(如文本、图像、音频和姿势)进行控制,从而生成逼真的人像视频。

  1. 全条件训练策略

OmniHuman 提出了一个渐进式、多阶段的训练方法,根据不同条件对运动的影响程度进行分阶段训练。这一策略遵循两个关键原则:

  • 更强条件的任务可以利用较弱条件的任务及其数据,从而实现数据扩展。例如,音频驱动的任务通常因唇部同步等要求而丢弃大量数据,而这些数据可以用于文本驱动的任务。

  • 条件越强,训练比例应越低,以避免模型过度依赖强条件,从而影响弱条件的学习效果。

  1. 多模态条件注入

OmniHuman 将条件分为两类:驱动条件和外观条件。

  • 驱动条件:音频特征通过 cross-attention 实现条件注入,姿势特征通过 Heatmap 特征编码后与 Noise 特征拼接实现条件注入,文本特征则保持了 MMDiT 的条件注入方式。

  • 外观条件:OmniHuman 没有采用单独的参考图网络(Reference Net),而是直接利用去噪声网络(Denoising Net)对输入图像进行特征编码,复用了 backbone 的特征提取方式。

  1. 多阶段训练

OmniHuman 采用多阶段训练方法,逐步引入文本、音频和姿势条件。具体来说:

  • 第一阶段仅使用文本和图像条件,不涉及音频和姿势条件。

  • 第二阶段引入音频条件,但不使用姿势条件。

  • 第三阶段同时使用所有条件,并逐步降低各条件的训练比例。

  1. 扩散变换器架构

OmniHuman 基于扩散变换器(Diffusion Transformer)架构,使用 3DVAE 将视频编码到潜在空间,并通过流匹配进行去噪训练。这种架构能够处理大规模数据,并学习自然的运动模式。

  1. 推理阶段

在推理阶段,OmniHuman 采用无分类器指导(CFG)和 CFG 退火策略,以平衡生成视频的表现力和计算效率。这种策略能够有效减少生成视频中的瑕疵(如皱纹),同时保持良好的唇部同步和动作表现力。

实验结果与性能评估

OmniHuman 在多个指标上显著优于现有方法。例如,在表1中,OmniHuman 在音频驱动的肖像动画任务中,无论是在 CelebV-HQ 还是 RAVDESS 数据集上,均在视觉质量(IQA)、唇部同步(Sync-C)和动作多样性(HKV)等指标上取得了最佳性能。在表2中,OmniHuman 在音频驱动的半身动画任务中也表现出色,尤其是在手势关键点置信度(HKC)和视觉质量(IQA)方面。

此外,表3展示了不同音频训练比例的主观比较结果。实验表明,当音频训练比例为50%时,模型在身份一致性、唇部同步精度和视觉质量方面表现最佳。

定性分析与生成效果

OmniHuman 生成的视频在视觉上更加逼真,支持多种肖像内容(如面部特写、半身、全身),并能处理复杂的人体姿态和人与物体的交互。例如,图1展示了 OmniHuman 根据输入音频和图像生成的视频帧,生成结果不仅匹配音频的节奏,还能自然地展示头部和手势动作。此外,OmniHuman 还支持多种输入形式和驱动模态(如音频驱动、视频驱动和组合驱动信号),进一步提升了模型的灵活性。

OmniHuman 通过混合多种条件信号进行训练,有效解决了人类动画数据扩展的难题,并在生成质量和多样性上取得了显著提升。该框架不仅能够生成高质量的人类视频,还支持多种输入形式和驱动模态,为未来的人类动画研究提供了新的方向。

论文链接:https://arxiv.org/pdf/2502.01061

项目链接:OmniHuman-1 Project

相关推荐
未来智慧谷2 分钟前
华为盘古 Ultra MoE 模型:国产 AI 的技术突破与行业影响
人工智能·华为
qq_436962188 分钟前
奥威BI+AI数据分析:企业数智化转型的加速器
人工智能·数据挖掘·数据分析
manduic9 分钟前
国产高性能pSRAM选型指南:CSS6404LS-LI 64Mb QSPI伪静态存储器
人工智能·psram·国产sram·爱普psram·aps6404l-3sqr·spi sram·spi psram
陈奕昆29 分钟前
3.2 HarmonyOS NEXT跨设备任务调度与协同实战:算力分配、音视频协同与智能家居联动
音视频·智能家居·harmonyos
jndingxin33 分钟前
OpenCV CUDA模块图像处理------双边滤波的GPU版本函数bilateralFilter()
图像处理·人工智能·opencv
西猫雷婶34 分钟前
深度学习|pytorch基本运算-乘除法和幂运算
人工智能·pytorch·深度学习
deflag1 小时前
第1天:认识RNN及RNN初步实验(预测下一个数字)
人工智能·rnn·深度学习
AndrewHZ1 小时前
【图像处理基石】立体匹配的经典算法有哪些?
图像处理·算法·计算机视觉·滤波·模式识别·立体匹配
俊哥V1 小时前
AI一周事件(2025年5月27日-6月2日)
人工智能·ai
AndrewHZ1 小时前
【图像处理入门】4. 图像增强技术——对比度与亮度的魔法调节
图像处理·算法·计算机视觉·几何变换·图像增强·模式识别