AIGC项目——Meta:根据对话音频生成带动作和手势的3d逼真数字人

From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations

From Audio to Photoreal Embodiment:Synthesizing Humans in Conversations

从二元对话的音频中,我们生成相应的逼真的面部、身体和手势。

概括性:角色是由作者的声音驱动的(而不是模型所训练的演员)。

摘要:

我们提出了一个框架,用于生成根据二元交互的会话动态手势的全身逼真的化身。给定语音音频,我们为个人输出多种可能的手势动作,包括脸、身体和手。我们的方法背后的关键是将矢量量化的样本多样性的好处与通过扩散获得的高频细节相结合,以产生更动态,更具表现力的运动。我们使用高度逼真的虚拟人物来可视化生成的运动,这些虚拟人物可以在手势中表达关键的细微差别(例如嘲笑和傻笑)。为了促进这方面的研究,我们引入了首个允许逼真重建的多视图会话数据集。实验表明,我们的模型生成适当和多样化的手势,优于扩散和VQ-only方法。此外,我们的感知评估强调了真实感(相对于网格)在准确评估会话手势中的细微运动细节方面的重要性。代码和数据集将公开发布。
方法

1-我们捕获了一个新颖的、丰富的二元对话数据集,可以进行逼真的重建。

2.我们的运动模型包括三个部分:面部运动模型、引导姿态预测器和身体运动模型。

3-给定音频和预训练唇回归器的输出,我们训练一个条件扩散模型来输出面部运动。

4-对于身体,我们以音频作为输入,并以1fps的速度自回归输出VQ-ed引导姿态。

5-然后,我们将音频和引导姿势传递到一个扩散模型中,该模型以30 fps的速度填充高频身体运动。

6-生成的面部和身体运动都被传递到我们训练过的头像渲染器中,以生成逼真的头像。

环境安装:需要pytorch3D

【配环境】pytorch3d版本不匹配导致ImportError: libtorch_cuda_cu.so: cannot open shared object file-CSDN博客

效果展示如下

相关推荐
七77.1 小时前
【3D 场景生成】WorldGen: From Text to Traversable and Interactive 3D Worlds
3d·世界模型
鲲穹AI超级员工1 小时前
多款音视频 & 电子书格式工具实测分享,日常素材处理够用了
音视频·电子书格式
楼兰公子1 小时前
基于RK3588平台的ALSA音频学习与开发指南
音视频·rk3588
文创工作室2 小时前
2024年Adobe Substance 3D Designer
3d·adobe
远离UE42 小时前
3D SDF 多光源 阴影 的不同尝试
3d
渡码桑2 小时前
英伟达与SK海力士合作,下一代AI内存技术路线解析
大数据·人工智能·音视频
人工智能培训2 小时前
用知识图谱重构搜索引擎
大数据·人工智能·3d·重构·知识图谱·agent
FII工业富联科技服务2 小时前
AI+3D世界模型:重构园区安防的“可感知、可推演、可进化”
大数据·人工智能·3d·ai·制造
小鹿研究点东西13 小时前
直播带货长视频AI自动剪辑开播:一场直播如何反复利用?
ffmpeg·自动化·音视频·语音识别
换个昵称都难14 小时前
webrtc PeerConnection 模块介绍
音视频·webrtc