【AIGC-数字人】V-Express:渐进式训练的数字人视频生成技术

介绍

在人像视频生成领域,使用单张图像生成人像视频已经变得越来越普遍。一种常见的方法涉及利用生成模型来增强适配器以实现受控生成。然而,控制信号的强度可能会有所不同,包括文本、音频、图像参考、姿态、深度图等。其中,较弱的条件往往由于较强条件的干扰而难以发挥作用,这对平衡这些条件提出了挑战。在我们关于肖像视频生成的工作中,我们发现音频信号特别弱,常常被姿势和原始图像等更强的信号所掩盖。然而,用弱信号直接训练往往会导致收敛困难。为了解决这个问题,我们提出了V-Express,这是一种通过一系列渐进式下降操作来平衡不同控制信号的简单方法。我们的方法逐渐能够通过弱条件进行有效控制,从而实现同时考虑姿势、输入图像和音频的生成能力。实验结果表明,我们的方法可以有效地生成由音频控制的肖像视频。此外,我们的方法为同时有效地使用不同强度的条件提供了潜在的解决方案。

网络结构图

网络解析

网络主要由Reference U-Net和Denoise U-Net组成

训练Reference U-Net主要是为主体Denoise U-Net提供参考图片的特征信息,以便生成以参考图片一致性的音频驱动图片数字人。

Denoise U-Net两个输入,基于视频序列帧的关键点带有噪声的视频序列帧 。他们都会先通过特征编码器转换为特征输入到去噪UNet中,视频序列帧通过vae编码器转换到潜在空间,与器通过V-kps引导器生成的特征做相加,作为UNET的输入;而音频的特征和参考图片的特征作为注意力机制嵌入到UNET中

DEMO

github网址:

https://github.com/tencent-ailab/V-Express/

comfyui节点地址:

https://github.com/AIFSH/ComfyUI_V-Express

注意事项

截至目前官方还未公布训练代码,也没有论文

相关推荐
人工智能培训3 分钟前
数字孪生技术:工程应用图景与效益评估
人工智能·python·算法·大模型应用工程师·大模型工程师证书
沛沛老爹3 分钟前
Web开发者转型AI安全核心:Agent金融数据处理Skill合规架构实战
java·人工智能·rag·企业转型·合规
一条闲鱼_mytube6 分钟前
智能体设计模式(七)优先级排序-探索与发现
网络·人工智能·设计模式
合新通信 | 让光不负所托10 分钟前
边缘计算节点空间受限,用浸没式液冷光模块能同时满足小型化和高性能需求吗?
大数据·人工智能·阿里云·云计算·边缘计算
shangjian00711 分钟前
AI大模型-深度学习-卷积神经网络-残差网络
人工智能·深度学习·cnn
人工智能AI技术11 分钟前
【C#程序员入门AI】环境一键搭建:.NET 8+AI开发环境(Semantic Kernel/ML.NET/ONNX Runtime)配置
人工智能·c#
哈哈哈也不行吗12 分钟前
回归数学教学的本源:大角几何Beta版如何重塑函数可视化教学
人工智能·在线工具·大角几何·动态数学
飞睿科技13 分钟前
解析ESP-SparkBot开源大模型AI桌面机器人的ESP32-S3核心方案
人工智能·嵌入式硬件·物联网·机器人·esp32·乐鑫科技·ai交互
线束线缆组件品替网15 分钟前
服务器高速互连测试中的 CableMAX 高速线缆实践
运维·服务器·人工智能·自动化·硬件工程·材料工程
2501_9481201519 分钟前
语音识别在儿科医疗语音交互中的应用
人工智能·交互·语音识别