【论文阅读】VASA-1: Lifelike Audio-Driven Talking FacesGenerated in Real Time

整体框架。不直接生成视频帧,而是在潜在空间中生成整体面部动态和头部运动,条件是音频和其他信号。给定这些运动潜在编码,通过面部解码器生成视频帧,还接受从输入图像中提取的外观和身份特征作为输入。

构建了一个面部潜在空间并训练面部编码器和解码器。

我们设计并训练了一个具有表现力和可分离特征的面部潜在学习框架,该框架基于真实面部视频。然后,训练一个扩散变换器,用于建模运动分布,并在测试时根据音频和其他条件生成运动潜在编码。

相关推荐
寻丶幽风28 分钟前
论文阅读笔记——Large Language Models Are Zero-Shot Fuzzers
论文阅读·pytorch·笔记·深度学习·网络安全·语言模型
柠石榴30 分钟前
【论文阅读笔记】Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation
论文阅读·提示工程·text2sql·llms·dail-sql
ZHANG8023ZHEN34 分钟前
Pluto论文阅读笔记
论文阅读·笔记
Eastmount35 分钟前
[论文阅读] (38)基于大模型的威胁情报分析与知识图谱构建论文总结(读书笔记)
论文阅读·人工智能·大模型·知识图谱·威胁情报
0x21135 分钟前
[论文阅读]PPT: Backdoor Attacks on Pre-trained Models via Poisoned Prompt Tuning
论文阅读·prompt
要努力啊啊啊1 小时前
GQA(Grouped Query Attention):分组注意力机制的原理与实践《一》
论文阅读·人工智能·深度学习·语言模型·自然语言处理
要努力啊啊啊10 小时前
GaLore:基于梯度低秩投影的大语言模型高效训练方法详解一
论文阅读·人工智能·语言模型·自然语言处理
智绘山河17 小时前
【论文阅读】Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting
论文阅读
xhyu6120 小时前
【论文笔记】Transcoders Find Interpretable LLM Feature Circuits
论文阅读
江木12320 小时前
论文阅读:CLIP:Learning Transferable Visual Models From Natural Language Supervision
论文阅读