ComfyUI-MultiTalk本地部署教程:创新L-RoPE机制破解多音频流绑定难题,定义多人对话视频生成新SOTA!

一、介绍

MultiTalk 是由中山大学、美团和香港科技大学联合研发的一款音频驱动的多人对话视频生成框架。它能够根据多路音频输入、参考图像和文本提示,生成包含多个角色互动且唇形与语音高度同步的视频内容。简单来说,它能让静态图片中的人物"开口说话",并且还能进行"对话"。其特点为:

💬 逼真的对话 - 支持单人和多人生成

👥 交互式角色控制 - 通过提示指导虚拟人

🎤 泛化表演 - 支持卡通人物和歌唱的生成

📺 分辨率灵活性:任意纵横比下的 480p 和 720p 输出

⏱️ 长视频生成:支持长达 15 秒的视频生成

二、本地部署

注意:本文主要介绍部署到 ComfyUI 中使用

环境 版本号
Python =3.12
PyTorch =2.8.0
cuda =12.6
Ubtuntu 22.0.4

1.安装 Miniconda

步骤 1:更新系统

首先,更新您的系统软件包:

sql 复制代码
sudo apt update
sudo apt upgrade -y

步骤 2:下载 Miniconda 安装脚本

访问 Miniconda 的官方网站或使用以下命令直接下载最新版本的安装脚本(以 Python 3 为例):

arduino 复制代码
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

步骤 3:验证安装脚本的完整性(可选)

下载 SHA256 校验和文件并验证安装包的完整性:

bash 复制代码
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh.sha256
sha256sum Miniconda3-latest-Linux-x86_64.sh

比较输出的校验和与.sha256 文件中的值是否一致,确保文件未被篡改。

步骤 4:运行安装脚本

为安装脚本添加执行权限:

bash 复制代码
chmod +x Miniconda3-latest-Linux-x86_64.sh

运行安装脚本:

复制代码
./Miniconda3-latest-Linux-x86_64.sh

步骤 5:按照提示完成安装

安装过程中,您需要:

阅读许可协议 :按 Enter 键逐页阅读,或者按 Q 退出阅读。
接受许可协议 :输入 yes 并按 Enter。
选择安装路径 :默认路径为/home/您的用户名/miniconda3,直接按 Enter 即可,或输入自定义路径。
是否初始化 Miniconda :输入 yes 将 Miniconda 添加到您的 PATH 环境变量中。
步骤 6:激活 Miniconda 环境

安装完成后,使环境变量生效:

bash 复制代码
source ~/.bashrc

步骤 7:验证安装是否成功

检查 conda 版本:

css 复制代码
conda --version

步骤 8:更新 conda(推荐)

为了获得最新功能和修复,更新 conda:

sql 复制代码
conda update conda

2.部署 ComfyUI

2.1 克隆代码仓库

bash 复制代码
git clone https://github.com/comfyanonymous/ComfyUI.git

2.2 安装依赖

  • 创建 conda 虚拟环境
ini 复制代码
conda create -n comfyenv python==3.12
conda activate comfyenv
  • 安装依赖
bash 复制代码
cd ComfyUI
pip install -r requirements.txt
  • 安装 ComfyUI Manager
bash 复制代码
#进入插件的文件
cd /ComfyUI/custom_nodes/
#下载ComfyUI Manager
git clone https://github.com/Comfy-Org/ComfyUI-Manager.git

3.下载模型

在huggingface中下载模型

bash 复制代码
#进入项目文件
cd ComfyUI
#下载模型文件到指定文件夹
#下载huggingface_hub
pip install huggingface_hub
huggingface-cli download --resume-download Comfy-Org/Wan_2.2_ComfyUI_Repackaged --local-dir /ComfyUI/models/diffusion_models --include "split_files/diffusion_models/wan2.2_i2v_low_noise_14B_fp8_scaled.safetensors"
huggingface-cli download --resume-download Comfy-Org/Wan_2.2_ComfyUI_Repackaged --local-dir /ComfyUI/models/diffusion_models --include "split_files/diffusion_models/wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors"
#下载text_encoders模型
huggingface-cli download AUTOMATIC/stable-diffusion-3-medium-text-encoders --local_dir /models/text_encoders/

4.启动 ComfyUI

css 复制代码
python main.py

输入网址进入 ComfyUI:

arduino 复制代码
http://127.0.0.1:8188

5.工作流

本镜像工作流已改动过,原工作流可以在kijai的仓库中找到

相关推荐
仿生狮子13 小时前
怎么给CC上下文窗口免费扩容?
开源·claude·vibecoding
秋915 小时前
从 Python 后端工程师转型 AI Engineer(AI 工程化)的完整补课清单(2026实战版)
开发语言·人工智能·python
lularible15 小时前
从沙子到车辙(7.4):《兰亭集序》的启示
开源·嵌入式·汽车电子
啦啦啦_999915 小时前
5. 迁移学习
人工智能·机器学习·迁移学习
A.说学逗唱的Coke15 小时前
【AI·Coding】TDD × SDD × AI Coding:从“测试驱动“到“规范驱动“的智能协作实践
人工智能·驱动开发·tdd
云烟成雨TD15 小时前
Spring AI Alibaba 1.x 系列【78】沙箱(Sandbox)
java·人工智能·spring
Soari16 小时前
开源项目解析 openmed —— 面向医疗智能应用的 OpenMed 开源平台
开源
tq108616 小时前
基于SLIP的防幻觉的指南
人工智能
甲维斯16 小时前
Kimi版超级玛丽效果“惊人”,配额不足5厘米!
前端·人工智能
console.log('npc')17 小时前
AI前端工程与生成式UI学习路线
前端·人工智能·ui