【论文阅读】VASA-1: Lifelike Audio-Driven Talking FacesGenerated in Real Time

整体框架。不直接生成视频帧,而是在潜在空间中生成整体面部动态和头部运动,条件是音频和其他信号。给定这些运动潜在编码,通过面部解码器生成视频帧,还接受从输入图像中提取的外观和身份特征作为输入。

构建了一个面部潜在空间并训练面部编码器和解码器。

我们设计并训练了一个具有表现力和可分离特征的面部潜在学习框架,该框架基于真实面部视频。然后,训练一个扩散变换器,用于建模运动分布,并在测试时根据音频和其他条件生成运动潜在编码。

相关推荐
寻丶幽风5 小时前
论文阅读笔记——VGGT: Visual Geometry Grounded Transformer
论文阅读·笔记·transformer·三维重建·3dgs·vggt
张较瘦_7 小时前
[论文阅读] 人工智能 + 软件工程 | Call Me Maybe:用图神经网络增强JavaScript调用图构建
论文阅读·人工智能·软件工程
qq_416276429 小时前
当SAM遇到声纳图像时之论文阅读
论文阅读
王上上9 小时前
【论文阅读38】-结合应力预测位移
论文阅读
张较瘦_11 天前
[论文阅读] 软件工程 + 教学 | 软件工程项目管理课程改革:从传统教学到以学生为中心的混合式学习实践
论文阅读·学习·软件工程
ZHANG8023ZHEN11 天前
GameFormer论文阅读
论文阅读
青椒大仙KI1111 天前
论文笔记 <交通灯><多智能体>MetaLight:基于价值的元强化学习用于交通信号控制
论文阅读
莱茶荼菜11 天前
论文阅读-单目视觉惯性系统时间标定(二)
论文阅读
ZHANG8023ZHEN11 天前
SIMPL论文阅读
论文阅读
Catching Star11 天前
【论文笔记】【强化微调】T-GRPO:对视频数据进行强化微调
论文阅读