AIGC项目——Meta:根据对话音频生成带动作和手势的3d逼真数字人

From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations

From Audio to Photoreal Embodiment:Synthesizing Humans in Conversations

从二元对话的音频中,我们生成相应的逼真的面部、身体和手势。

概括性:角色是由作者的声音驱动的(而不是模型所训练的演员)。

摘要:

我们提出了一个框架,用于生成根据二元交互的会话动态手势的全身逼真的化身。给定语音音频,我们为个人输出多种可能的手势动作,包括脸、身体和手。我们的方法背后的关键是将矢量量化的样本多样性的好处与通过扩散获得的高频细节相结合,以产生更动态,更具表现力的运动。我们使用高度逼真的虚拟人物来可视化生成的运动,这些虚拟人物可以在手势中表达关键的细微差别(例如嘲笑和傻笑)。为了促进这方面的研究,我们引入了首个允许逼真重建的多视图会话数据集。实验表明,我们的模型生成适当和多样化的手势,优于扩散和VQ-only方法。此外,我们的感知评估强调了真实感(相对于网格)在准确评估会话手势中的细微运动细节方面的重要性。代码和数据集将公开发布。
方法

1-我们捕获了一个新颖的、丰富的二元对话数据集,可以进行逼真的重建。

2.我们的运动模型包括三个部分:面部运动模型、引导姿态预测器和身体运动模型。

3-给定音频和预训练唇回归器的输出,我们训练一个条件扩散模型来输出面部运动。

4-对于身体,我们以音频作为输入,并以1fps的速度自回归输出VQ-ed引导姿态。

5-然后,我们将音频和引导姿势传递到一个扩散模型中,该模型以30 fps的速度填充高频身体运动。

6-生成的面部和身体运动都被传递到我们训练过的头像渲染器中,以生成逼真的头像。

环境安装:需要pytorch3D

【配环境】pytorch3d版本不匹配导致ImportError: libtorch_cuda_cu.so: cannot open shared object file-CSDN博客

效果展示如下

相关推荐
于是我说10 小时前
稳定常用能直接在电脑上下载微博视频的方法
音视频
ACP广源盛1392462567310 小时前
GSV2006@ACP#2 进 4 出 HDMI2.0 中继器(带音频提取 / 嵌入功能)全解析
单片机·嵌入式硬件·音视频
平行云10 小时前
World Labs & Paraverse:统一3D世界的创造与访问
3d·unity·ai·ue5·aigc·实时云渲染·云xr
3DVisionary11 小时前
微米级精度:小尺寸手机零部件的高效3D检测与质量控制案例
3d·智能手机·工业4.0·3d扫描技术·高精度测量·手机零部件检测·质量控制 qc
二川bro13 小时前
第54节:安全防护 - 3D场景中的XSS防御
安全·3d·xss
大模型实验室Lab4AI16 小时前
VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉
人工智能·计算机视觉·音视频
reddingtons21 小时前
Firefly Text-to-Texture:一键生成PBR武器材质的游戏美术效率革命
人工智能·3d·prompt·材质·技术美术·游戏策划·游戏美术
EasyDSS1 天前
视频推拉流平台EasyDSS无人机视频推拉流技术助力实现工地远程监控巡检直播
音视频·无人机
眠りたいです1 天前
基于脚手架微服务的视频点播系统-服务端开发部分接口定义,数据库表设计,视频索引设计,缓存与消息队列设计部分
数据库·c++·缓存·微服务·云原生·架构·音视频
二川bro1 天前
第55节:无障碍设计 - 3D内容的可访问
3d