ComfyUI-MultiTalk本地部署教程:创新L-RoPE机制破解多音频流绑定难题,定义多人对话视频生成新SOTA!

一、介绍

MultiTalk 是由中山大学、美团和香港科技大学联合研发的一款音频驱动的多人对话视频生成框架。它能够根据多路音频输入、参考图像和文本提示,生成包含多个角色互动且唇形与语音高度同步的视频内容。简单来说,它能让静态图片中的人物"开口说话",并且还能进行"对话"。其特点为:

💬 逼真的对话 - 支持单人和多人生成

👥 交互式角色控制 - 通过提示指导虚拟人

🎤 泛化表演 - 支持卡通人物和歌唱的生成

📺 分辨率灵活性:任意纵横比下的 480p 和 720p 输出

⏱️ 长视频生成:支持长达 15 秒的视频生成

二、本地部署

注意:本文主要介绍部署到 ComfyUI 中使用

环境 版本号
Python =3.12
PyTorch =2.8.0
cuda =12.6
Ubtuntu 22.0.4

1.安装 Miniconda

步骤 1:更新系统

首先,更新您的系统软件包:

sql 复制代码
sudo apt update
sudo apt upgrade -y

步骤 2:下载 Miniconda 安装脚本

访问 Miniconda 的官方网站或使用以下命令直接下载最新版本的安装脚本(以 Python 3 为例):

arduino 复制代码
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

步骤 3:验证安装脚本的完整性(可选)

下载 SHA256 校验和文件并验证安装包的完整性:

bash 复制代码
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh.sha256
sha256sum Miniconda3-latest-Linux-x86_64.sh

比较输出的校验和与.sha256 文件中的值是否一致,确保文件未被篡改。

步骤 4:运行安装脚本

为安装脚本添加执行权限:

bash 复制代码
chmod +x Miniconda3-latest-Linux-x86_64.sh

运行安装脚本:

复制代码
./Miniconda3-latest-Linux-x86_64.sh

步骤 5:按照提示完成安装

安装过程中,您需要:

阅读许可协议 :按 Enter 键逐页阅读,或者按 Q 退出阅读。
接受许可协议 :输入 yes 并按 Enter。
选择安装路径 :默认路径为/home/您的用户名/miniconda3,直接按 Enter 即可,或输入自定义路径。
是否初始化 Miniconda :输入 yes 将 Miniconda 添加到您的 PATH 环境变量中。
步骤 6:激活 Miniconda 环境

安装完成后,使环境变量生效:

bash 复制代码
source ~/.bashrc

步骤 7:验证安装是否成功

检查 conda 版本:

css 复制代码
conda --version

步骤 8:更新 conda(推荐)

为了获得最新功能和修复,更新 conda:

sql 复制代码
conda update conda

2.部署 ComfyUI

2.1 克隆代码仓库

bash 复制代码
git clone https://github.com/comfyanonymous/ComfyUI.git

2.2 安装依赖

  • 创建 conda 虚拟环境
ini 复制代码
conda create -n comfyenv python==3.12
conda activate comfyenv
  • 安装依赖
bash 复制代码
cd ComfyUI
pip install -r requirements.txt
  • 安装 ComfyUI Manager
bash 复制代码
#进入插件的文件
cd /ComfyUI/custom_nodes/
#下载ComfyUI Manager
git clone https://github.com/Comfy-Org/ComfyUI-Manager.git

3.下载模型

在huggingface中下载模型

bash 复制代码
#进入项目文件
cd ComfyUI
#下载模型文件到指定文件夹
#下载huggingface_hub
pip install huggingface_hub
huggingface-cli download --resume-download Comfy-Org/Wan_2.2_ComfyUI_Repackaged --local-dir /ComfyUI/models/diffusion_models --include "split_files/diffusion_models/wan2.2_i2v_low_noise_14B_fp8_scaled.safetensors"
huggingface-cli download --resume-download Comfy-Org/Wan_2.2_ComfyUI_Repackaged --local-dir /ComfyUI/models/diffusion_models --include "split_files/diffusion_models/wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors"
#下载text_encoders模型
huggingface-cli download AUTOMATIC/stable-diffusion-3-medium-text-encoders --local_dir /models/text_encoders/

4.启动 ComfyUI

css 复制代码
python main.py

输入网址进入 ComfyUI:

arduino 复制代码
http://127.0.0.1:8188

5.工作流

本镜像工作流已改动过,原工作流可以在kijai的仓库中找到

相关推荐
天呐草莓5 小时前
集成学习 (ensemble learning)
人工智能·python·深度学习·算法·机器学习·数据挖掘·集成学习
却道天凉_好个秋5 小时前
OpenCV(四十七):FLANN特征匹配
人工智能·opencv·计算机视觉
Ma0407136 小时前
【论文阅读27】-LMPHM:基于因果网络和大语言模型-增强知识图网络的故障推理诊断
人工智能·语言模型·自然语言处理
Nautiluss6 小时前
一起调试XVF3800麦克风阵列(二)
大数据·人工智能·嵌入式硬件·音频·语音识别·dsp开发
玖日大大6 小时前
AI智能体聚焦场景化应用,赋能产业创新与效率提升
大数据·人工智能
不惑_6 小时前
通俗理解多层感知机(MLP)
开发语言·人工智能·python·深度学习
小徐Chao努力6 小时前
【Langchain4j-Java AI开发】02-模型参数配置与调优
java·开发语言·人工智能
代码代码快快显灵6 小时前
Windows下Anaconda安装OpenCV以及OpenCV入门
图像处理·人工智能·opencv
码农进厂打螺丝6 小时前
Stable Diffusion 3.5 FP8:量化优化与部署实践
人工智能·计算机视觉·stable diffusion
Niuguangshuo6 小时前
DeepDream:窥视神经网络内部世界的梦幻之窗
人工智能·深度学习·神经网络