TANGO - 数字人全身动作生成

文章目录


一、关于 TANGO

TANGO 是 具有分层音频运动嵌入 和 扩散插值的共语音手势视频再现

由东京大学和 CyberAgent AI Lab 联合开发


参考文章:开源版Heygen!TANGO数字人,瞄准全身动作生成,本地部署实测
https://mp.weixin.qq.com/s/3br-2dP2GmrhqqHY4cbpmg


演示视频(YouTube)

https://youtu.be/xuhD_-tMH1w?si=Tr6jHAhOR1fxWIjb


📝发布计划

  • AuMoClip和ACInterp的训练代码
  • ACInterp的推理码
  • 处理YouTube商业视频数据(非常小,约15分钟)
  • 创建手势图的脚本
  • 带有AuMoClip和预训练权重的推理码

二、⚒️安装


克隆存储库

shell 复制代码
git clone https://github.com/CyberAgentAILab/TANGO.git
cd TANGO
git clone https://github.com/justinjohn0306/Wav2Lip.git
git clone https://github.com/dajes/frame-interpolation-pytorch.git

构建环境

我们推荐一个python版本==3.9.20和cuda版本==11.8。然后构建环境如下:

shell 复制代码
# [Optional] Create a virtual env
conda create -n tango python==3.9.20
conda activate tango
# Install with pip:
pip install -r ./pre-requirements.txt
pip install -r ./requirements.txt

三、🚀训练和推理


1、推理

这是在路径<your root>/TANGO/下运行推理脚本的命令,生成两个8s vido大约需要3分钟。您可以通过直接检查视频或使用我们在EMAGE中的搅拌机插件通过搅拌机检查结果. npz文件来可视化。

第一次运行时将自动下载必要的检查点和预先计算的图表。请确保至少有35GB的磁盘空间可用。

shell 复制代码
python app.py

2、为自定义字符创建图形

shell 复制代码
python create_graph.py

2025-01-06(一)

相关推荐
MysticDusk6 天前
生成埃里克卡特曼人工智能语音听起来像他或配音视频
语音··卡特
夜间去看海1 个月前
基于单片机的WIFI、语音、储存、时钟、闹钟、定位系统
单片机·嵌入式硬件·wifi·定位·语音·储存·闹钟
夜间去看海1 个月前
51-基于单片机的智能语音识别与处理系统设计
单片机·嵌入式硬件·proteus·串口·仿真·语音
Good@dz2 个月前
Linux麦克风录音实战
语音交互·语音·录音
Jiaberrr4 个月前
手把手教你:微信小程序实现语音留言功能
前端·微信小程序·小程序·语音·录音
伊织code5 个月前
GPT-SoVITS - few shot 声音克隆
gpt·tts·克隆·语音·clone·gpt-sovits·音色
若石之上5 个月前
语音识别模型whisper的参数说明
whisper·openai·参数·语音·文字
伊织code5 个月前
WhisperX
python·whisper·openai·asr·语音·vad·whisperx
AI 研究所6 个月前
讯飞星火V4.0 发布,全面对标GPT-4 Turbo
人工智能·语言模型·机器人·交互·语音