【论文阅读】VASA-1: Lifelike Audio-Driven Talking FacesGenerated in Real Time

整体框架。不直接生成视频帧,而是在潜在空间中生成整体面部动态和头部运动,条件是音频和其他信号。给定这些运动潜在编码,通过面部解码器生成视频帧,还接受从输入图像中提取的外观和身份特征作为输入。

构建了一个面部潜在空间并训练面部编码器和解码器。

我们设计并训练了一个具有表现力和可分离特征的面部潜在学习框架,该框架基于真实面部视频。然后,训练一个扩散变换器,用于建模运动分布,并在测试时根据音频和其他条件生成运动潜在编码。

相关推荐
莫彩9 小时前
【大模型论文阅读】2503.01821_On the Power of Context-Enhanced Learning in LLMs
论文阅读·人工智能·语言模型
王上上10 小时前
【论文阅读51】-CNN-LSTM-安全系数和失效概率预测
论文阅读·cnn·lstm
有Li11 小时前
弹性网:基于神经网络的多组分磁共振弹性成像波反演与不确定性量化|文献速递-医学影像算法文献分享
论文阅读·医学生
妙BOOK言16 小时前
FalconFS: Distributed File System for Large-Scale Deep Learning Pipeline——论文阅读
论文阅读·元数据·分布式文件系统
2301_8036527416 小时前
PPO原论文阅读
论文阅读
北京地铁1号线1 天前
YOLO12论文阅读:Attention-Centric Real-Time Object Detectors
论文阅读·yolo·目标检测
张较瘦_2 天前
[论文阅读] 人工智能 + 软件工程 | 从OpenAPI到MCP服务器:AutoMCP如何让LLM工具集成自动化?
服务器·论文阅读·人工智能
锅挤2 天前
论文阅读--《Besting the Black-Box: Barrier Zones for Adversarial Example Defense》
论文阅读
行然梦实2 天前
论文阅读:《针对多目标优化和应用的 NSGA-II 综述》一些关于优化算法的简介
论文阅读·算法·数学建模
行然梦实2 天前
论文阅读:《无约束多目标优化的遗传算法,群体和进化计算》
论文阅读·算法·数学建模