第一步:获取核心工作流文件
InfiniteTalk 运行在 ComfyUI 里,工作流文件是核心。推荐用社区已经调好的版本。这里有几个获取路径:
- 社区整合资源 :推荐这个网盘
https://pan.quark.cn/s/4ac8f9e32423?pwd=JKb6,包含模型和工作流 - 另一个整合包 :
https://pan.quark.cn/s/ef8c64027412(网盘中找infiniteTalk工作流模型和示例文件夹) - FP8轻量化版 :约 33GB,B站 UP 主提供的
242-InfiniteTalk对口型FP8版 - 官方工作流:可去 InfiniteTalk 官方 Hugging Face 仓库找(详见下方链接)
下载后是一个 .json 文件(或者压缩包,解压获得),先放着,后面会拖进 ComfyUI。
第二步:安装/更新必要插件
确保这些插件已安装,否则工作流会显示红字报错。
必需插件列表:
|------------------------------|-----------------------|-------------------|
| 插件名称 | 安装方式 | 说明 |
| ComfyUI-Manager | 新版自带 / 去 GitHub clone | 管理节点必备 |
| ComfyUI-WanVideoWrapper | Manager搜 / clone | InfiniteTalk的核心驱动 |
| ComfyUI-VideoHelperSuite | Manager搜 | 视频辅助工具 |
| ComfyUI-Impact-Pack | Manager搜 | 高效工作流管理 |
安装步骤:
- 打开 ComfyUI,点击右侧的 "Manager" 按钮。
- 进入 "Install Custom Nodes",依次搜索上面列出的插件,点击 install。
- 安装完成后,务必重启 ComfyUI。
如果之前已安装
ComfyUI-WanVideoWrapper,请更新到最新版。InfiniteTalk 的代码已合并至新版 WanVideoWrapper 中,更新后 MultiTalk 节点的名称会变成 MultiTalk / Infinite MultiTalk。
第三步:下载并放置关键模型文件
InfiniteTalk 需要下载 6 个模型文件,大小加起来约 40GB。下面是完整清单:
|------------------------------------------------------|-----------|----------------------------------------|
| 模型 | 大小 | 存放路径 |
| Image-to-Video Diffusion Model | ~16 GB | ComfyUI/models/diffusion_models/ |
| Audio-to-Video Diffusion Model (InfiniteTalk Single) | ~2.6 GB | 同上 |
| Text Encoder | ~6.5 GB | ComfyUI/models/text_encoders/ |
| Clip Vision Model | ~1.2 GB | ComfyUI/models/clip_vision/ |
| VAE | ~0.25 GB | ComfyUI/models/vae/ |
| Melband Row Former / wav2vec2 | ~0.5 GB | diffusion_models/ (自动下载) |
获取方式:
- 官方 Hugging Face 仓库:
https://huggingface.co/MeiGen-AI/InfiniteTalk - 仓库中找
ComfyUI文件夹,里面包含InfiniteTalk Single和InfiniteTalk Multi两个.safetensors文件 - 也可以从第一步的网盘链接直接下载,包含完整的模型文件。
放置技巧:
- 模型文件直接放进对应文件夹即可,如果文件夹不存在就手动新建
- 也可在
diffusion_models文件夹里单独建一个子文件夹来整理模型 - 注意:用网盘下载时,有些链接提供的是 FP8 量化版(约 33GB),适合 8G 显存用户
首次运行时,
wav2vec2 音频编码器可能会自动下载,耐心等待即可。
第四步:导入与准备工作流
- 将下载的
.json工作流文件直接拖入 ComfyUI 界面。 - 如果有节点变红,点击 "Install All Missing Nodes" 自动安装缺失的节点。
- 在工作流中找到 InfiniteTalk / MultiTalk 模型加载节点 ,选择之前下载的
InfiniteTalk Single模型文件。 - 设置参数:
- 分辨率:480×480 或 512×512(8G 显存推荐)
- 帧数:先设 81 帧(约 10 秒,8fps)做测试
- 采样步数:20--30
- CFG:5--7
第五步:生成视频与参数调优
- 上传参考图片:在
Load Image节点中,上传动物角色图片。 - 上传驱动音频:在
Load Audio节点中,上传想要动物主播说的音频(建议人声分离,用纯净干声)。 - 点击右侧 "Queue Prompt" 按钮,开始生成。首次生成会稍慢,后续会快一些。
- 保存输出:视频会保存在
ComfyUI/output/文件夹。
生成时间参考(参考值):RTX 3090 上约 1 秒视频需要 33 秒生成,9 秒视频约 5 分钟。你的 RTX 5060 8G 可能会稍慢一些,但可以正常跑。
第六步:RTX 5060 8G 显存优化技巧
显存是这张卡的瓶颈,下面这几个设置非常关键:
1. 启动参数优化(最重要) 在启动脚本(run_nvidia_gpu.bat)中,找到 main.py 那行,在后面加上:
python main.py --lowvram --reserve-vram 1 --fp16-unet
--lowvram:让显存使用更智能--reserve-vram 1:预留 1GB 显存给系统--fp16-unet:降低 UNet 精度,省显存
2. 分辨率与帧数控制
- 先跑低分辨率 480×480 测试,稳定后再尝试 512×512。
- 首先生成 49 帧(约 6 秒),确认跑通后再逐步加长到 81 帧(约 10 秒)。
3. 使用量化模型
- 建议用网盘链接中的 FP8 量化版模型(约 33GB),能显著降低显存占用。
4. 关闭无关程序 生成时关闭浏览器、Chrome 等占用显存的应用,尽可能把资源留给 ComfyUI。
第七步:常见问题与解决方法
|--------------------------|--------------|-------------------------------------------------------------------------------------------------------------------------|
| 问题现象 | 可能原因 | 解决方法 |
| 工作流导入后显示红字节点 | 缺少插件 | 点"Install All Missing Nodes"安装,然后重启 |
| 报 "Missing Models" | 模型路径不对 | 检查 models/diffusion_models/ 下是否有模型文件 |
| CUDA out of Memory | 显存不足 | 降低分辨率、减少单次输出帧数,或者使用 FP8 量化模型 |
| 音频对口型不同步 | 音频质量不佳 | 使用人声分离工具(如 UVR5)提取纯净干声 |
| 模型下载不下来 | 网络问题 | 用国内云盘资源下载,或更换 Hugging Face 镜像源 |
| 导入工作流时找不到路径 | ComfyUI 版本问题 | 检查 C:\Users\你的用户名\Documents\ComfyUI\models 下是否有模型。如果没有,可以复制 extra_model_paths.yaml.example 并重命名,编辑路径指向正确位置 |
结语
这套流程提供了从安装、下载模型到配置生成的一整套方案。如果过程中有报错拿不准,随时把错误信息发给我,我来帮你排查。