LongCat-Video-Avatar-1.5 - 一句话生成口型同步、动作稳定的数字人 说话/唱歌 视频 一键整合包下载

LongCat-Video-Avatar 1.5 是美团(Meituan)LongCat团队开源的一个AI数字人视频生成模型(也叫"会说话的头像/数字人模型")。简单说,它能根据语音 + 文字描述(或者再加一张参考照片),自动生成说话自然、动作协调的视频人物。

想象一下:你给它一张照片(真人、动漫人物甚至动物),配一段录音(可以是中文或英文),再加点文字描述(如"一个女孩在咖啡店微笑说话"),它就能生成一段嘴巴同步说话、表情自然、全身动作稳定的短视频。还能继续生成更长的视频,或者让多个人一起对话。

当前版本对硬件要求较高,目前还没有更好的优化版,所以当前版本为尝鲜版,暂时也没制作操作友好的WebUI,后期有更好的硬件优化方案,再同步更新。

支持单人和双人两种生成模式 ,效果较上个版本提上很大,无论是口型还是同步的动作,都很优秀,就是对硬件要求略高,生成速度略慢。

主要特点

嘴巴同步超自然:用了Whisper-Large语音编码器(比之前版本强很多),说话时口型、节奏更准、更流畅。

稳定性强:适合生成较长的视频,人物身份(长相)保持一致,全身动作自然,不会轻易"穿模"或乱动。

支持多场景:能处理真人、动漫、动物;支持单人说话,也支持多人对话;还能拿东西、复杂互动。

生成速度快:优化后只需8步推理(以前可能要更多),速度快很多,还支持INT8量化省显存,比较适合实际使用。

输入灵活:支持纯语音+文字生成视频,或语音+图片生成视频,还能视频续接(把前面生成的继续往下演)。

应用领域

短视频/直播/虚拟主播:快速做出会说话的数字人主播。

电商营销:产品讲解视频、虚拟客服、带货主播。

教育/知识分享:老师讲解视频、知识科普。

娱乐/表演:唱歌、讲故事、角色扮演、动漫角色复活。

新闻播报、多人对话场景:虚拟新闻主播、对话节目。

影视/创意制作:快速生成演员试镜、动画预览等。

使用教程: (建议N卡,显存12G起,运存≥32G,支持50系显卡)

整合包包含所需所有节点,下载主程序和模型(ComfyUI文件夹),解压主程序一键包,将ComfyUI文件夹移动到主程序目录下即可。

双击启动,进入WebUI后,点击左侧的 工作流,选择对应的工作流。

支持单人和双人两种模式,单人模式上传一张一人出境图像,双人模式上传一张两人出境图像

输入提示词,设置相关参数,最后运行生成。

相关参数设置页面有说明,视频时长由num segments控制,为(93/25)时长的倍数,具体换算为:93/25=3.7,num segments就设置为2,大概7秒左右,以此类推

如果是单人模式,需要手动关闭双人组节点,如果上传的音频非唱歌音频,则需要手动关闭最左侧的"人声分离"节点。

因默认启用Flash_Attn加速,所以需要本地安装配置 MSVC编译环境

软件目录结构

📂 ComfyUI/

├── 📂 models/

│ ├── 📂 diffusion_models/

│ │ └── LongCat-Video-Avatar-1.5-int8.safetensors

│ ├── 📂 longcat/

│ │ ├──📂 vocal_separator

│ │ ├──📂 whisper-large-v3

│ ├── 📂 vae/

│ │ └── LongCat_Avatar_1.5_vae.safetensors

📂 deepface/

......

下载地址: 点此下载

相关推荐
searchforAI2 小时前
长视频和播客怎么变成结构化读书笔记?一套 AI 时代的知识管理方法
人工智能·笔记·gpt·音视频·语音识别
不想吃饭e3 小时前
uniapp-图片,视频上传组件封装
java·uni-app·音视频
做萤石二次开发的哈哈3 小时前
具备 ERTC 能力的萤石设备如何对接客户端通话?
音视频·实时音视频·萤石开放平台
电子元件小说家3 小时前
音频调音台直滑电位器选型:ALPS RK12L123000E 与国产同于科技替代方案评估
科技·音视频
人工智能研究所4 小时前
字节开源 OmniShow:文本,图片,音频,人体姿态多输入,一键成片
人工智能·神经网络·开源·音视频·开源软件·字节跳动·ai 视频
byte轻骑兵6 小时前
【LE Audio】CAP精讲[14]: BR/EDR传输连接实战,老设备兼容的核心流程解析
网络·音视频·le audio·音视频控制·车机蓝牙
jbk33116 小时前
谷哥找同片助手:相同视频片段自动寻找匹配功能使用说明
人工智能·音视频·剪辑软件·剪映自动化软件
南山有乔木7897 小时前
如何把视频转换成音频mp3格式?7种适合录屏、课程和素材整理的方法
音视频
华盛AI7 小时前
【视频物联网 App】RN 双端适配与原生核心实现深度剖析
物联网·音视频