ComfyUI集成InfiniteTalk工作流，实现宠物主播视频生成

第一步：获取核心工作流文件

InfiniteTalk 运行在 ComfyUI 里，工作流文件是核心。推荐用社区已经调好的版本。这里有几个获取路径：

社区整合资源 ：推荐这个网盘 https://pan.quark.cn/s/4ac8f9e32423?pwd=JKb6，包含模型和工作流
另一个整合包 ：https://pan.quark.cn/s/ef8c64027412（网盘中找 infiniteTalk工作流模型和示例文件夹）
FP8轻量化版 ：约 33GB，B站 UP 主提供的 242-InfiniteTalk对口型FP8版
官方工作流：可去 InfiniteTalk 官方 Hugging Face 仓库找（详见下方链接）

下载后是一个 .json 文件（或者压缩包，解压获得），先放着，后面会拖进 ComfyUI。

第二步：安装/更新必要插件

确保这些插件已安装，否则工作流会显示红字报错。

必需插件列表：

|------------------------------|-----------------------|-------------------|
| 插件名称 | 安装方式 | 说明 |
| ComfyUI-Manager | 新版自带 / 去 GitHub clone | 管理节点必备 |
| ComfyUI-WanVideoWrapper | Manager搜 / clone | InfiniteTalk的核心驱动 |
| ComfyUI-VideoHelperSuite | Manager搜 | 视频辅助工具 |
| ComfyUI-Impact-Pack | Manager搜 | 高效工作流管理 |

安装步骤：

打开 ComfyUI，点击右侧的 "Manager" 按钮。
进入 "Install Custom Nodes"，依次搜索上面列出的插件，点击 install。
安装完成后，务必重启 ComfyUI。

如果之前已安装 ComfyUI-WanVideoWrapper，请更新到最新版。InfiniteTalk 的代码已合并至新版 WanVideoWrapper 中，更新后 MultiTalk 节点的名称会变成 MultiTalk / Infinite MultiTalk。

第三步：下载并放置关键模型文件

InfiniteTalk 需要下载 6 个模型文件，大小加起来约 40GB。下面是完整清单：

|------------------------------------------------------|-----------|----------------------------------------|
| 模型 | 大小 | 存放路径 |
| Image-to-Video Diffusion Model | ~16 GB | ComfyUI/models/diffusion_models/ |
| Audio-to-Video Diffusion Model (InfiniteTalk Single) | ~2.6 GB | 同上 |
| Text Encoder | ~6.5 GB | ComfyUI/models/text_encoders/ |
| Clip Vision Model | ~1.2 GB | ComfyUI/models/clip_vision/ |
| VAE | ~0.25 GB | ComfyUI/models/vae/ |
| Melband Row Former / wav2vec2 | ~0.5 GB | diffusion_models/ (自动下载) |

获取方式：

官方 Hugging Face 仓库：https://huggingface.co/MeiGen-AI/InfiniteTalk
仓库中找 ComfyUI 文件夹，里面包含 InfiniteTalk Single 和 InfiniteTalk Multi 两个 .safetensors 文件
也可以从第一步的网盘链接直接下载，包含完整的模型文件。

放置技巧：

模型文件直接放进对应文件夹即可，如果文件夹不存在就手动新建
也可在 diffusion_models 文件夹里单独建一个子文件夹来整理模型
注意：用网盘下载时，有些链接提供的是 FP8 量化版（约 33GB），适合 8G 显存用户

首次运行时，wav2vec2 音频编码器可能会自动下载，耐心等待即可。

第四步：导入与准备工作流

将下载的 .json 工作流文件直接拖入 ComfyUI 界面。
如果有节点变红，点击 "Install All Missing Nodes" 自动安装缺失的节点。
在工作流中找到 InfiniteTalk / MultiTalk 模型加载节点 ，选择之前下载的 InfiniteTalk Single 模型文件。
设置参数：

分辨率：480×480 或 512×512（8G 显存推荐）
帧数：先设 81 帧（约 10 秒，8fps）做测试
采样步数：20--30
CFG：5--7

第五步：生成视频与参数调优

上传参考图片：在 Load Image 节点中，上传动物角色图片。
上传驱动音频：在 Load Audio 节点中，上传想要动物主播说的音频（建议人声分离，用纯净干声）。
点击右侧 "Queue Prompt" 按钮，开始生成。首次生成会稍慢，后续会快一些。
保存输出：视频会保存在 ComfyUI/output/ 文件夹。

生成时间参考（参考值）：RTX 3090 上约 1 秒视频需要 33 秒生成，9 秒视频约 5 分钟。你的 RTX 5060 8G 可能会稍慢一些，但可以正常跑。

第六步：RTX 5060 8G 显存优化技巧

显存是这张卡的瓶颈，下面这几个设置非常关键：

1. 启动参数优化（最重要） 在启动脚本（run_nvidia_gpu.bat）中，找到 main.py 那行，在后面加上：

复制代码

python main.py --lowvram --reserve-vram 1 --fp16-unet

--lowvram：让显存使用更智能
--reserve-vram 1：预留 1GB 显存给系统
--fp16-unet：降低 UNet 精度，省显存

2. 分辨率与帧数控制

先跑低分辨率 480×480 测试，稳定后再尝试 512×512。
首先生成 49 帧（约 6 秒），确认跑通后再逐步加长到 81 帧（约 10 秒）。

3. 使用量化模型

建议用网盘链接中的 FP8 量化版模型（约 33GB），能显著降低显存占用。

4. 关闭无关程序 生成时关闭浏览器、Chrome 等占用显存的应用，尽可能把资源留给 ComfyUI。

第七步：常见问题与解决方法

|--------------------------|--------------|-------------------------------------------------------------------------------------------------------------------------|
| 问题现象 | 可能原因 | 解决方法 |
| 工作流导入后显示红字节点 | 缺少插件 | 点"Install All Missing Nodes"安装，然后重启 |
| 报 "Missing Models" | 模型路径不对 | 检查 models/diffusion_models/ 下是否有模型文件 |
| CUDA out of Memory | 显存不足 | 降低分辨率、减少单次输出帧数，或者使用 FP8 量化模型 |
| 音频对口型不同步 | 音频质量不佳 | 使用人声分离工具（如 UVR5）提取纯净干声 |
| 模型下载不下来 | 网络问题 | 用国内云盘资源下载，或更换 Hugging Face 镜像源 |
| 导入工作流时找不到路径 | ComfyUI 版本问题 | 检查 C:\Users\你的用户名\Documents\ComfyUI\models 下是否有模型。如果没有，可以复制 extra_model_paths.yaml.example 并重命名，编辑路径指向正确位置 |

结语

这套流程提供了从安装、下载模型到配置生成的一整套方案。如果过程中有报错拿不准，随时把错误信息发给我，我来帮你排查。