【论文阅读】VASA-1: Lifelike Audio-Driven Talking FacesGenerated in Real Time

整体框架。不直接生成视频帧,而是在潜在空间中生成整体面部动态和头部运动,条件是音频和其他信号。给定这些运动潜在编码,通过面部解码器生成视频帧,还接受从输入图像中提取的外观和身份特征作为输入。

构建了一个面部潜在空间并训练面部编码器和解码器。

我们设计并训练了一个具有表现力和可分离特征的面部潜在学习框架,该框架基于真实面部视频。然后,训练一个扩散变换器,用于建模运动分布,并在测试时根据音频和其他条件生成运动潜在编码。

相关推荐
regret~6 小时前
【论文笔记】DKTNet: Dual-Key Transformer Network for small object detection
论文阅读·目标检测·transformer
图学习的小张11 小时前
论文笔记:基于细粒度融合网络和跨模态一致性学习的多模态假新闻检测
论文阅读·学习
图学习的小张20 小时前
论文笔记:LAFF 文本到视频检索的新基准
论文阅读
wgggfiy1 天前
chatgpt学术科研prompt模板有哪些?chatgpt的学术prompt有哪些?学术gpt,学术科研
论文阅读·人工智能·gpt·chatgpt·prompt·aigc
小嗷犬2 天前
【论文笔记】Visual Instruction Tuning
论文阅读·深度学习·大模型·多模态
Yanc_L2 天前
【论文阅读】MEDICAL GRAPH RAG: TOWARDS SAFE MEDICAL LARGE LANGUAGE MODEL VIA
论文阅读·人工智能·语言模型
皮卡丘ZPC2 天前
Frequency-aware Feature Fusion for Dense Image Prediction 论文阅读
论文阅读
chnyi6_ya2 天前
论文笔记:Anytime Continual Learning for Open Vocabulary Classification
论文阅读·人工智能
爱思德学术-IAAST2 天前
本省第一所!新大学,揭牌!
论文阅读·学习·学习方法·论文笔记·学术
Xy-unu3 天前
[VL|Ref]UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces
论文阅读·人工智能·python·深度学习·transformer