LongCat-Video-Avatar-1.5 - 一句话生成口型同步、动作稳定的数字人说话/唱歌视频一键整合包下载

LongCat-Video-Avatar 1.5 是美团（Meituan）LongCat团队开源的一个AI数字人视频生成模型（也叫"会说话的头像/数字人模型"）。简单说，它能根据语音 + 文字描述（或者再加一张参考照片），自动生成说话自然、动作协调的视频人物。

想象一下：你给它一张照片（真人、动漫人物甚至动物），配一段录音（可以是中文或英文），再加点文字描述（如"一个女孩在咖啡店微笑说话"），它就能生成一段嘴巴同步说话、表情自然、全身动作稳定的短视频。还能继续生成更长的视频，或者让多个人一起对话。

当前版本对硬件要求较高，目前还没有更好的优化版，所以当前版本为尝鲜版，暂时也没制作操作友好的WebUI，后期有更好的硬件优化方案，再同步更新。

支持单人和双人两种生成模式，效果较上个版本提上很大，无论是口型还是同步的动作，都很优秀，就是对硬件要求略高，生成速度略慢。

主要特点

嘴巴同步超自然：用了Whisper-Large语音编码器（比之前版本强很多），说话时口型、节奏更准、更流畅。

稳定性强：适合生成较长的视频，人物身份（长相）保持一致，全身动作自然，不会轻易"穿模"或乱动。

支持多场景：能处理真人、动漫、动物；支持单人说话，也支持多人对话；还能拿东西、复杂互动。

生成速度快：优化后只需8步推理（以前可能要更多），速度快很多，还支持INT8量化省显存，比较适合实际使用。

输入灵活：支持纯语音+文字生成视频，或语音+图片生成视频，还能视频续接（把前面生成的继续往下演）。

应用领域

短视频/直播/虚拟主播：快速做出会说话的数字人主播。

电商营销：产品讲解视频、虚拟客服、带货主播。

教育/知识分享：老师讲解视频、知识科普。

娱乐/表演：唱歌、讲故事、角色扮演、动漫角色复活。

新闻播报、多人对话场景：虚拟新闻主播、对话节目。

影视/创意制作：快速生成演员试镜、动画预览等。

使用教程： （建议N卡，显存12G起，运存≥32G，支持50系显卡）

整合包包含所需所有节点，下载主程序和模型（ComfyUI文件夹），解压主程序一键包，将ComfyUI文件夹移动到主程序目录下即可。

双击启动，进入WebUI后，点击左侧的工作流，选择对应的工作流。

支持单人和双人两种模式，单人模式上传一张一人出境图像，双人模式上传一张两人出境图像

输入提示词，设置相关参数，最后运行生成。

相关参数设置页面有说明，视频时长由num segments控制，为（93/25）时长的倍数，具体换算为：93/25=3.7，num segments就设置为2，大概7秒左右，以此类推

如果是单人模式，需要手动关闭双人组节点，如果上传的音频非唱歌音频，则需要手动关闭最左侧的"人声分离"节点。

因默认启用Flash_Attn加速，所以需要本地安装配置 MSVC编译环境

软件目录结构

📂 ComfyUI/

├── 📂 models/

│ ├── 📂 diffusion_models/

│ │ └── LongCat-Video-Avatar-1.5-int8.safetensors

│ ├── 📂 longcat/

│ │ ├──📂 vocal_separator

│ │ ├──📂 whisper-large-v3

│ ├── 📂 vae/

│ │ └── LongCat_Avatar_1.5_vae.safetensors

📂 deepface/

......

下载地址： 点此下载

LongCat-Video-Avatar-1.5 - 一句话生成口型同步、动作稳定的数字人 说话/唱歌 视频 一键整合包下载