❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- MimicTalk 是字节跳动和浙江大学联合开发的基于 NeRF 技术的 3D 说话人脸视频生成模型。
- 该模型能够在 15 分钟内生成个性化且富有表现力的 3D 说话人脸视频。
- MimicTalk 支持音频驱动生成特定人物的说话头像,显著提高了视频质量和训练效率。
正文(附运行示例)
MimicTalk 是什么
MimicTalk 是一种基于 NeRF(神经辐射场)技术的 3D 说话人脸视频生成模型,由字节跳动和浙江大学共同研发。该模型能够在极短时间内(仅需 15 分钟)生成个性化且富有表现力的 3D 说话人脸视频,显著提高了训练效率和视频质量。
MimicTalk 的主要功能
- 快速个性化训练:在 15 分钟内完成对新身份的适应和训练。
- 高质量视频生成:生成的视频在视觉质量上超越以往技术。
- 表现力增强:捕捉和模仿目标人物的动态说话风格。
- 上下文学习:从上下文中学习目标人的说话风格,提高面部动作的自然度。
- 音频驱动:支持用音频输入驱动特定人物的 3D 说话头像。
MimicTalk 的技术原理
- 人-不可知 3D 人脸生成模型:预训练的通用 3D 人脸生成模型,能处理单张图片输入。
- 静态-动态混合适应流程:学习特定身份的静态外观和动态特征,基于优化 3D 人脸表征和低秩适应技术。
- 上下文风格化的音频到运动模型(ICS-A2M):生成与目标人物说话风格相匹配的面部动作。
- Flow Matching 模型:预测数据点的速度场,指导数据点从先验分布向目标分布移动。
- 推理过程:结合音频输入与参考视频,生成高质量的说话人脸视频。
如何运行 MimicTalk
安装环境
请参照环境配置文档,配置 Conda 环境mimictalk
。
下载预训练与第三方模型
3DMM BFM 模型
下载 3DMM BFM 模型:Google Drive
预训练模型
下载预训练的 MimicTalk 相关 Checkpoints:Google Drive
MimicTalk 训练与推理的最简命令
bash
python inference/train_mimictalk_on_a_video.py # 训练模型
python inference/mimictalk_infer.py # 推理模型
资源
- 关注并回复公众号【58】或【MimicTalk】获取相关项目资源。
❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦