开源3d数字人学习笔记2025

目录

开源数字人解决方案fay:

echomimic_v2

[淘宝TaoAvatar 3d数字人,可以手机端运行](#淘宝TaoAvatar 3d数字人,可以手机端运行)

字节:MimicTalk

[字节开源 PersonaTalk](#字节开源 PersonaTalk)

[腾讯开源数字人MuseTalk 2d数字人](#腾讯开源数字人MuseTalk 2d数字人)


|------------------------------|-----------------|----------------------------------------------|-------------|------------------------------------------------------------------------------------------------------|
| LAM (Large Avatar Model) | 超写实3D人头生成与驱动 | 基于3D高斯溅射,无需神经网络后处理,跨平台超实时渲染(移动端可达120FPS) | 单张图像 | GitHub |
| IDOL | 高质量、可动画的3D全身生成 | 基于Transformer,秒级重建,无需额外绑骨,支持形变与纹理编辑 | 单张图像 | GitHub |
| MNN-TaoAvatar | 端侧实时3D数字人语音交互 | 集成ASR、LLM、TTS、A2BS全链路,可在手机/XR设备上运行 | 多视角视频(用于建模) | GitHub |
| HAvatar | 高保真动态人头Avatar创建 | 基于NeRF与参数化模板结合,支持基于单视角视频的重建与表情控制 | 单视角视频 | 代码目录见,具体地址需查阅相关项目 |
| StructLDM | 3D人体生成与编辑 | 结构化潜在扩散模型,支持身份交换、局部服装编辑等 | 2D图像 | 代码目录见,具体地址需查阅相关项目 |
| NVIDIA Audio2Face | 语音驱动面部动画 | 生成式AI将语音直接转换为逼真的面部表情与口型 | 音频 | 已开源,具体地址见官方发布 |

开源数字人解决方案fay:

https://github.com/xszyou/Fay

echomimic_v2

https://github.com/antgroup/echomimic_v2

淘宝TaoAvatar 3d数字人,可以手机端运行

介绍资料,里面有语音语音驱动,语音识别等模型:

https://www.thepaper.cn/newsDetail_forward_31039750

Mnn3dAvatar

论文地址:https://arxiv.org/abs/2503.17032v1

开源地址:https://github.com/alibaba/MNN/blob/master/apps/Android/MnnTaoAvatar/README_CN.md

TaoAvatar 基于先进的 3D 高斯泼溅技术,提供了一套全身互动式的真人数字人解决方案。它通过多视角视频的输入,可以迅速生成具有高逼真度的数字人形象,这些形象不仅能够精准地捕捉到细腻的面部表情和手势动作,甚至连衣物细微的褶皱以及头发的自然摆动都能清晰呈现,带来一种自然而真实的视觉体验。

介绍:https://github.com/alibaba/MNN/blob/master/apps/Android/MnnTaoAvatar/README_CN.md#releases

由于需要将多个模型同时运行在手机上,需要性能高的芯片内存足够大

  • 旗舰芯片级性能:高通骁龙8 Gen 3或联发科天玑9200以上级别
  • 内存至少8GB
  • 手机存储需至少5GB空间用于存放模型文件
  • ARM64架构

字节:MimicTalk

字节开源 PersonaTalk

只不过今天讲的MimicTalk开源了,直接就能用,不用看着那论文大呼"不开源发个论文干什么"

MimicTalk跟PersonaTalk还是有本质区别的,MimicTalk是需要训练的3D数字人PersonaTalk还是wav2lip那种贴上去的嘴型。

MimicTalk的训练速度是非常快的,训练一个数字人只要15分钟,内存占用也不大,实际只用了8个多G。

腾讯开源数字人MuseTalk 2d数字人

https://github.com/TMElyralab/MuseTalk?tab=readme-ov-file

相关推荐
IT_陈寒10 小时前
Java性能优化:3个90%开发者都忽略的高效技巧,让你的应用提速50%!
前端·人工智能·后端
北京阿法龙科技有限公司10 小时前
AI 驱动的 AR眼镜巡检技术方案:让工业缺陷识别更精准高效|阿法龙XR云平台
人工智能·ar·xr
金井PRATHAMA10 小时前
符号主义对自然语言处理深层语义分析的影响与启示
人工智能·自然语言处理·知识图谱
kalvin_y_liu10 小时前
PyTorch、ONNX Runtime、Hugging Face、NVIDIA Triton 和 LangChain 五个概念的关系详解
人工智能·pytorch·langchain
武子康12 小时前
AI-调查研究-96-具身智能 机器人场景测试全攻略:从极端环境到实时仿真
人工智能·深度学习·机器学习·ai·架构·系统架构·具身智能
Vizio<12 小时前
《基于 ERT 的稀疏电极机器人皮肤技术》ICRA2020论文解析
论文阅读·人工智能·学习·机器人·触觉传感器
小熊猫程序猿12 小时前
Datawhale 算法笔记 AI硬件与机器人大模型 (五) Isaac Sim 入门
人工智能·笔记·机器人
张较瘦_12 小时前
[论文阅读] AI+软件工程(需求工程)| 告别需求混乱!AI-native时代,需求工程的5大痛点与3大破局方向
论文阅读·人工智能·软件工程
TGITCIC16 小时前
AI Agent竞争进入下半场:模型只是入场券,系统架构决定胜负
人工智能·ai产品经理·ai产品·ai落地·大模型架构·ai架构·大模型产品