【论文阅读】VASA-1: Lifelike Audio-Driven Talking FacesGenerated in Real Time

整体框架。不直接生成视频帧,而是在潜在空间中生成整体面部动态和头部运动,条件是音频和其他信号。给定这些运动潜在编码,通过面部解码器生成视频帧,还接受从输入图像中提取的外观和身份特征作为输入。

构建了一个面部潜在空间并训练面部编码器和解码器。

我们设计并训练了一个具有表现力和可分离特征的面部潜在学习框架,该框架基于真实面部视频。然后,训练一个扩散变换器,用于建模运动分布,并在测试时根据音频和其他条件生成运动潜在编码。

相关推荐
网安INF6 小时前
【论文阅读】-《TtBA: Two-third Bridge Approach for Decision-Based Adversarial Attack》
论文阅读·人工智能·神经网络·对抗攻击
智算菩萨16 小时前
AGI的定义:基于CHC认知理论的量化评估框架深度解析
论文阅读·人工智能·深度学习·ai·agi
智算菩萨16 小时前
基于多模态基础模型迈向通用人工智能:BriVL模型深度解析
论文阅读·人工智能·ai·语言模型·agi
Mr.Cheng.19 小时前
【论文阅读】Hidden in plain sight:VLMs overlook their visual representations
论文阅读
智算菩萨2 天前
通往AGI之路:基于性能与通用性的等级划分框架深度解析
论文阅读·人工智能·深度学习·ai·agi
xx_xxxxx_2 天前
多模态动态融合模型Predictive Dynamic Fusion论文阅读与代码分析4-代码架构
论文阅读·机器学习·transformer·多模态
AustinCyy2 天前
【论文笔记】LLM Evaluators Recognize and Favor Their Own Generations
论文阅读
传说故事2 天前
【论文阅读】OpenClaw-RL: Train Any Agent Simply by Talking
论文阅读·人工智能
AustinCyy2 天前
【论文笔记】Lost in Stories: Consistency Bugs in Long Story Generation by LLMs
论文阅读
智算菩萨2 天前
ChatGPT 5.4文献检索实战指南:从入门到精通的学术搜索方法论
论文阅读·人工智能·ai·chatgpt·全文检索