ComfyUI集成InfiniteTalk工作流,实现宠物主播视频生成

第一步:获取核心工作流文件

InfiniteTalk 运行在 ComfyUI 里,工作流文件是核心。推荐用社区已经调好的版本。这里有几个获取路径:

  • 社区整合资源 :推荐这个网盘 ​https://pan.quark.cn/s/4ac8f9e32423?pwd=JKb6​,包含模型和工作流
  • 另一个整合包​https://pan.quark.cn/s/ef8c64027412​(网盘中找 ​infiniteTalk工作流模型和示例文件夹​
  • FP8轻量化版 :约 33GB,B站 UP 主提供的 ​242-InfiniteTalk对口型FP8版​
  • 官方工作流:可去 InfiniteTalk 官方 Hugging Face 仓库找(详见下方链接)

下载后是一个 ​​.json​​ 文件(或者压缩包,解压获得),先放着,后面会拖进 ComfyUI。


第二步:安装/更新必要插件

确保这些插件已安装,否则工作流会显示红字报错。

必需插件列表:

|------------------------------|-----------------------|-------------------|
| 插件名称 | 安装方式 | 说明 |
| ComfyUI-Manager | 新版自带 / 去 GitHub clone | 管理节点必备 |
| ComfyUI-WanVideoWrapper | Manager搜 / clone | InfiniteTalk的核心驱动 |
| ComfyUI-VideoHelperSuite | Manager搜 | 视频辅助工具 |
| ComfyUI-Impact-Pack | Manager搜 | 高效工作流管理 |

安装步骤:

  1. 打开 ComfyUI,点击右侧的 "Manager" 按钮。
  2. 进入 "Install Custom Nodes",依次搜索上面列出的插件,点击 install。
  3. 安装完成后,务必重启 ComfyUI

如果之前已安装 ​​ComfyUI-WanVideoWrapper​​,请更新到最新版。InfiniteTalk 的代码已合并至新版 WanVideoWrapper 中,更新后 MultiTalk 节点的名称会变成 MultiTalk / Infinite MultiTalk


第三步:下载并放置关键模型文件

InfiniteTalk 需要下载 6 个模型文件,大小加起来约 40GB。下面是完整清单:

|------------------------------------------------------|-----------|----------------------------------------|
| 模型 | 大小 | 存放路径 |
| Image-to-Video Diffusion Model | ~16 GB | ​​ComfyUI/models/diffusion_models/​​ |
| Audio-to-Video Diffusion Model (InfiniteTalk Single) | ~2.6 GB | 同上 |
| Text Encoder | ~6.5 GB | ​​ComfyUI/models/text_encoders/​​ |
| Clip Vision Model | ~1.2 GB | ​​ComfyUI/models/clip_vision/​​ |
| VAE | ~0.25 GB | ​​ComfyUI/models/vae/​​ |
| Melband Row Former / wav2vec2 | ~0.5 GB | ​​diffusion_models/​​ (自动下载) |

获取方式:

  • 官方 Hugging Face 仓库:​https://huggingface.co/MeiGen-AI/InfiniteTalk​
  • 仓库中找 ​ComfyUI​ 文件夹,里面包含 ​InfiniteTalk Single​​InfiniteTalk Multi​ 两个 ​.safetensors​ 文件
  • 也可以从第一步的网盘链接直接下载,包含完整的模型文件。

放置技巧:

  • 模型文件直接放进对应文件夹即可,如果文件夹不存在就手动新建
  • 也可在 ​diffusion_models​ 文件夹里单独建一个子文件夹来整理模型
  • 注意:用网盘下载时,有些链接提供的是 FP8 量化版(约 33GB),适合 8G 显存用户

首次运行时,​​wav2vec2​​ 音频编码器可能会自动下载,耐心等待即可。


第四步:导入与准备工作流

  1. 将下载的 ​.json​ 工作流文件直接拖入 ComfyUI 界面
  2. 如果有节点变红,点击 "Install All Missing Nodes" 自动安装缺失的节点。
  3. 在工作流中找到 InfiniteTalk / MultiTalk 模型加载节点 ,选择之前下载的 ​InfiniteTalk Single​ 模型文件。
  4. 设置参数:
  • 分辨率:480×480512×512(8G 显存推荐)
  • 帧数:先设 81 帧(约 10 秒,8fps)做测试
  • 采样步数:20--30
  • CFG:5--7

第五步:生成视频与参数调优

  1. 上传参考图片:在 ​Load Image​ 节点中,上传动物角色图片。
  2. 上传驱动音频:在 ​Load Audio​ 节点中,上传想要动物主播说的音频(建议人声分离,用纯净干声)。
  3. 点击右侧 "Queue Prompt" 按钮,开始生成。首次生成会稍慢,后续会快一些。
  4. 保存输出:视频会保存在 ​ComfyUI/output/​ 文件夹。

生成时间参考(参考值):RTX 3090 上约 1 秒视频需要 33 秒生成,9 秒视频约 5 分钟。你的 RTX 5060 8G 可能会稍慢一些,但可以正常跑。


第六步:RTX 5060 8G 显存优化技巧

显存是这张卡的瓶颈,下面这几个设置非常关键

1. 启动参数优化(最重要) 在启动脚本(​​run_nvidia_gpu.bat​​)中,找到 ​​main.py​​ 那行,在后面加上:

复制代码
python main.py --lowvram --reserve-vram 1 --fp16-unet
  • ​--lowvram​:让显存使用更智能
  • ​--reserve-vram 1​:预留 1GB 显存给系统
  • ​--fp16-unet​:降低 UNet 精度,省显存

2. 分辨率与帧数控制

  • 先跑低分辨率 480×480 测试,稳定后再尝试 512×512
  • 首先生成 49 帧(约 6 秒),确认跑通后再逐步加长到 81 帧(约 10 秒)。

3. 使用量化模型

  • 建议用网盘链接中的 FP8 量化版模型(约 33GB),能显著降低显存占用。

4. 关闭无关程序 生成时关闭浏览器、Chrome 等占用显存的应用,尽可能把资源留给 ComfyUI。


第七步:常见问题与解决方法

|--------------------------|--------------|-------------------------------------------------------------------------------------------------------------------------|
| 问题现象 | 可能原因 | 解决方法 |
| 工作流导入后显示红字节点 | 缺少插件 | 点"Install All Missing Nodes"安装,然后重启 |
| 报 "Missing Models" | 模型路径不对 | 检查 ​​models/diffusion_models/​​ 下是否有模型文件 |
| ​​CUDA out of Memory​​ | 显存不足 | 降低分辨率、减少单次输出帧数,或者使用 FP8 量化模型 |
| 音频对口型不同步 | 音频质量不佳 | 使用人声分离工具(如 UVR5)提取纯净干声 |
| 模型下载不下来 | 网络问题 | 用国内云盘资源下载,或更换 Hugging Face 镜像源 |
| 导入工作流时找不到路径 | ComfyUI 版本问题 | 检查 ​​C:\Users\你的用户名\Documents\ComfyUI\models​​​ 下是否有模型。如果没有,可以复制 ​​extra_model_paths.yaml.example​​ 并重命名,编辑路径指向正确位置 |


结语

这套流程提供了从安装、下载模型到配置生成的一整套方案。如果过程中有报错拿不准,随时把错误信息发给我,我来帮你排查。

相关推荐
2601_957787588 小时前
短视频矩阵系统的信号密码:用数字信号处理(DSP)理论,破解“限流“的底层逻辑
矩阵·音视频·信号处理
__log9 小时前
纯 ComfyUI 视频生成工作流方案设计
音视频
REDcker10 小时前
QUIC应用实践
音视频·webrtc·实时音视频·webtransport
byte轻骑兵10 小时前
【LE Audio】CAP精讲[10]: 多设备协同的通关秘籍——协调集全流程实战
音视频·蓝牙耳机·蓝牙音箱·le audio·低功耗音频
AI创界者11 小时前
LTX-Video 2.3 最新渐变版整合包!文生视频/图生视频双重进化,解压即用(附超详细避坑指南)
人工智能·aigc·音视频
爱睡懒觉的焦糖玛奇朵19 小时前
【从视频到数据集:焦糖玛奇朵的魔法工具使用说明】
人工智能·python·深度学习·学习·算法·yolo·音视频
潜创微科技1 天前
IT68353:双 DP1.4a+HDMI2.0 转 HDMI2.0 单芯片 KVM 切换方案
嵌入式硬件·音视频
沐禾安信1 天前
同一画面,如何两个视频同时播放,两个方法
电脑·音视频·分屏·视频转换
500841 天前
Conv + BN + ReLU 融合:省掉两次显存读写
flutter·架构·开源·wpf·音视频