[AI工具]Infinite Talk数字人对口型图像转视频AI工具 支持无限时长视频生成

简介说明

Infinite Talk数字人对口型图像转视频AI工具 支持无限时长视频生成

InfiniteTalk AI:音频驱动的视频生成框架

InfiniteTalk AI是由 MeiGen AI 开发的先进音频驱动视频生成框架,

专注于将静态图像或现有视频与音频结合,生成无限时长的逼真说话视频,

实现精准唇形同步和全身动作协调。

核心功能

核心优势 说明
精准唇形同步 口型与音频毫秒级匹配,自然度远超传统工具
身份保持 长时间生成中人物特征稳定不变
情感表达 能将音频情感映射到面部表情和肢体语言
高效性能 单GPU支持长时生成,多GPU可扩展

通过分析音频特征,仅需生成关键稀疏帧,再智能插值补全,既保证效率又确保自然流畅。

核心优势

优势 说明

精准唇形同步 口型与音频毫秒级匹配,自然度远超传统工具

身份保持 长时间生成中人物特征稳定不变

情感表达 能将音频情感映射到面部表情和肢体语言

高效性能 单 GPU 支持长时生成,多 GPU 可扩展

典型应用场景

教育领域:虚拟讲师制作、课程多语言本地化

企业宣传:产品解说、多语种企业介绍视频快速制作

自媒体创作:博主可不出镜完成内容量产

影视制作:配音替换、角色对话重制

使用方式

通过官网 (infinitetalk.app) 上传人像素材和音频,选择生成参数,即可获得高质量的 Talking Video。

总结:InfiniteTalk AI 重新定义了音频驱动视频生成,为内容创作提供了前所未有的自由度,让 "一张照片开口说话" 成为现实,且支持无限时长、自然流畅的表达。

快速入门

  1. 创建一个 conda 环境并安装 pytorch、xformers
复制代码
conda create -n multitalk python=3.10
conda activate multitalk
pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121
pip install -U xformers==0.0.28 --index-url https://download.pytorch.org/whl/cu121
  1. Flash-attn installation:
复制代码
pip install misaki[en]
pip install ninja 
pip install psutil 
pip install packaging
pip install wheel
pip install flash_attn==2.7.4.post1
  1. 其他依赖关系
复制代码
pip install -r requirements.txt
conda install -c conda-forge librosa
  1. FFmeg安装
复制代码
conda install -c conda-forge ffmpeg

或者

复制代码
sudo yum install ffmpeg ffmpeg-devel

模型下载

Models Download Link Notes
Wan2.1-I2V-14B-480P 🤗 Huggingface Base model
chinese-wav2vec2-base 🤗 Huggingface Audio encoder
MeiGen-InfiniteTalk 🤗 Huggingface Our audio condition weights

Download models using huggingface-cli:

复制代码
huggingface-cli download Wan-AI/Wan2.1-I2V-14B-480P --local-dir ./weights/Wan2.1-I2V-14B-480P
huggingface-cli download TencentGameMate/chinese-wav2vec2-base --local-dir ./weights/chinese-wav2vec2-base
huggingface-cli download TencentGameMate/chinese-wav2vec2-base model.safetensors --revision refs/pr/1 --local-dir ./weights/chinese-wav2vec2-base
huggingface-cli download MeiGen-AI/InfiniteTalk --local-dir ./weights/InfiniteTalk

🔑 快速推理

我们的型号兼容480P和720P两种分辨率。

Some tips

复制代码
Lip synchronization accuracy:​​ Audio CFG works optimally between 3–5. Increase the audio CFG value for better synchronization.
FusionX: While it enables faster inference and higher quality, FusionX LoRA exacerbates color shift over 1 minute and reduces ID preservation in videos.
V2V generation: Enables unlimited length generation. The model mimics the original video's camera movement, though not identically. Using SDEdit improves camera movement accuracy significantly but introduces color shift and is best suited for short clips. Improvements for long video camera control are planned.
I2V generation: Generates good results from a single image for up to 1 minute. Beyond 1 minute, color shifts become more pronounced. One trick for the high-quailty generation beyond 1 min is to copy the image to a video by translating or zooming in the image. Here is a script to convert image to video.
Quantization model: If your inference process is killed due to insufficient memory, we suggest using the quantization model, which can help reduce memory usage.

一些建议

复制代码
唇同步精度:音频CFG的最佳表现为3–5。提高音频CFG值以实现更好的同步。
FusionX:虽然它能实现更快的推断和更高质量,但FusionX LoRA会加剧1分钟内的色移,并降低视频中的识别保护。
V2V生成:支持无限长度的生成。模型模仿了原始视频的摄像机运动,但并不完全相同。使用SDEdit显著提升了摄像机运动的准确性,但引入了色彩偏移,更适合短片段。计划改进长距离摄像机控制。
I2V生成:单张图像能产生长达1分钟的良好效果。超过1分钟后,颜色变化会更明显。对于高质量生成超过1分钟的一个技巧是通过将图像进行翻译或放大,将图像复制到视频中。这里有一个脚本,可以把图片转换成视频。
量化模型:如果您的推理过程因内存不足而终止,我们建议使用量化模型,这有助于减少内存使用。

InfiniteTalk 的使用

复制代码
--mode streaming: long video generation.
--mode clip: generate short video with one chunk.
--use_teacache: run with TeaCache.
--size infinitetalk-480: generate 480P video.
--size infinitetalk-720: generate 720P video.
--use_apg: run with APG.
--teacache_thresh: A coefficient used for TeaCache acceleration
—-sample_text_guide_scale: When not using LoRA, the optimal value is 5. After applying LoRA, the recommended value is 1.
—-sample_audio_guide_scale: When not using LoRA, the optimal value is 4. After applying LoRA, the recommended value is 2.
—-sample_audio_guide_scale: When not using LoRA, the optimal value is 4. After applying LoRA, the recommended value is 2.
--max_frame_num: The max frame length of the generated video, the default is 40 seconds(1000 frames).
  1. 推断

1)单显卡运行

复制代码
python generate_infinitetalk.py \
--ckpt_dir weights/Wan2.1-I2V-14B-480P \
--wav2vec_dir 'weights/chinese-wav2vec2-base' \
--infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \
--input_json examples/single_example_image.json \
--size infinitetalk-480 \
--sample_steps 40 \
--mode streaming \
--motion_frame 9 \
--save_file infinitetalk_res

2)运行720P版本

如果你想用720P运行,可以设置:--size infinitetalk-720

复制代码
python generate_infinitetalk.py \
--ckpt_dir weights/Wan2.1-I2V-14B-480P \
--wav2vec_dir 'weights/chinese-wav2vec2-base' \
--infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \
--input_json examples/single_example_image.json \
--size infinitetalk-720 \
--sample_steps 40 \
--mode streaming \
--motion_frame 9 \
--save_file infinitetalk_res_720p

3)显存非常低

如果你想用非常低的显存运行,可以设置:--num_persistent_param_in_dit 0

复制代码
python generate_infinitetalk.py \
--ckpt_dir weights/Wan2.1-I2V-14B-480P \
--wav2vec_dir 'weights/chinese-wav2vec2-base' \
--infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \
--input_json examples/single_example_image.json \
--size infinitetalk-480 \
--sample_steps 40 \
--num_persistent_param_in_dit 0 \
--mode streaming \
--motion_frame 9 \
--save_file infinitetalk_res_lowvram

4)多GPU推断

复制代码
GPU_NUM=8
torchrun --nproc_per_node=$GPU_NUM --standalone generate_infinitetalk.py \
--ckpt_dir weights/Wan2.1-I2V-14B-480P \
--wav2vec_dir 'weights/chinese-wav2vec2-base' \
--infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \
--dit_fsdp --t5_fsdp \
--ulysses_size=$GPU_NUM \
--input_json examples/single_example_image.json \
--size infinitetalk-480 \
--sample_steps 40 \
--mode streaming \
--motion_frame 9 \
--save_file infinitetalk_res_multigpu

5)多人动画

复制代码
python generate_infinitetalk.py \
--ckpt_dir weights/Wan2.1-I2V-14B-480P \
--wav2vec_dir 'weights/chinese-wav2vec2-base' \
--infinitetalk_dir weights/InfiniteTalk/multi/infinitetalk.safetensors \
--input_json examples/multi_example_image.json \
--size infinitetalk-480 \
--sample_steps 40 \
--num_persistent_param_in_dit 0 \
--mode streaming \
--motion_frame 9 \
--save_file infinitetalk_res_multiperson
  1. 使用 FusioniX 或 Lightx2v(只需 4~8 步)

FusioniX需要8步,Lightx2V只需4步。

复制代码
python generate_infinitetalk.py \
--ckpt_dir weights/Wan2.1-I2V-14B-480P \
--wav2vec_dir 'weights/chinese-wav2vec2-base' \
--infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \
--lora_dir weights/Wan2.1_I2V_14B_FusionX_LoRA.safetensors \
--input_json examples/single_example_image.json \
--lora_scale 1.0 \
--size infinitetalk-480 \
--sample_text_guide_scale 1.0 \
--sample_audio_guide_scale 2.0 \
--sample_steps 8 \
--mode streaming \
--motion_frame 9 \
--sample_shift 2 \
--num_persistent_param_in_dit 0 \
--save_file infinitetalk_res_lora
  1. 使用量化模型运行(仅支持单显卡运行)
复制代码
python generate_infinitetalk.py \
--ckpt_dir weights/Wan2.1-I2V-14B-480P \
--wav2vec_dir 'weights/chinese-wav2vec2-base' \
--infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \
--input_json examples/single_example_image.json \
--size infinitetalk-480 \
--sample_steps 40 \
--mode streaming \
--quant fp8 \
--quant_dir weights/InfiniteTalk/quant_models/infinitetalk_single_fp8.safetensors \
--motion_frame 9 \
--num_persistent_param_in_dit 0 \
--save_file infinitetalk_res_quant
  1. 与Gradio一起奔跑
复制代码
python app.py \
--ckpt_dir weights/Wan2.1-I2V-14B-480P \
--wav2vec_dir 'weights/chinese-wav2vec2-base' \
--infinitetalk_dir weights/InfiniteTalk/single/infinitetalk.safetensors \
--num_persistent_param_in_dit 0 \
--motion_frame 9

python app.py \

复制代码
--ckpt_dir weights/Wan2.1-I2V-14B-480P \
--wav2vec_dir 'weights/chinese-wav2vec2-base' \
--infinitetalk_dir weights/InfiniteTalk/multi/infinitetalk.safetensors \
--num_persistent_param_in_dit 0 \
--motion_frame 9

图片预览

效果预览

https://www.bilibili.com/video/BV1pBqHB4EoW/

下载地址

https://github.com/MeiGen-AI/InfiniteTalk

https://pan.quark.cn/s/f425d805167f

相关推荐
副露のmagic13 分钟前
深度学习基础复健
人工智能·深度学习
番茄大王sc15 分钟前
2026年科研AI工具深度测评(一):文献调研与综述生成领域,维普科创助手领跑学术严谨性
人工智能·深度学习·考研·学习方法·论文笔记
代码丰29 分钟前
SpringAI+RAG向量库+知识图谱+多模型路由+Docker打造SmartHR智能招聘助手
人工智能·spring·知识图谱
独处东汉1 小时前
freertos开发空气检测仪之输入子系统结构体设计
数据结构·人工智能·stm32·单片机·嵌入式硬件·算法
乐迪信息1 小时前
乐迪信息:AI防爆摄像机在船舶监控的应用
大数据·网络·人工智能·算法·无人机
风栖柳白杨1 小时前
【语音识别】soundfile使用方法
人工智能·语音识别
胡西风_foxww1 小时前
ObsidianAI_学习一个陌生知识领域_建立学习路径和知识库框架_写一本书
人工智能·笔记·学习·知识库·obsidian·notebooklm·写一本书
Hernon1 小时前
AI智能体 - 探索与发现 Clawdbot >> Moltbot
大数据·人工智能·ai智能体·ai开发框架
输出的都是我的1 小时前
科研-工具箱汇总
人工智能
昨夜见军贴06162 小时前
IACheck AI审核功能进化新维度:重构检测报告审核技术价值链的系统路径
人工智能·重构