LongCat-Video-Avatar-1.5 - 一句话生成口型同步、动作稳定的数字人 说话/唱歌 视频 一键整合包下载

LongCat-Video-Avatar 1.5 是美团(Meituan)LongCat团队开源的一个AI数字人视频生成模型(也叫"会说话的头像/数字人模型")。简单说,它能根据语音 + 文字描述(或者再加一张参考照片),自动生成说话自然、动作协调的视频人物。

想象一下:你给它一张照片(真人、动漫人物甚至动物),配一段录音(可以是中文或英文),再加点文字描述(如"一个女孩在咖啡店微笑说话"),它就能生成一段嘴巴同步说话、表情自然、全身动作稳定的短视频。还能继续生成更长的视频,或者让多个人一起对话。

当前版本对硬件要求较高,目前还没有更好的优化版,所以当前版本为尝鲜版,暂时也没制作操作友好的WebUI,后期有更好的硬件优化方案,再同步更新。

支持单人和双人两种生成模式 ,效果较上个版本提上很大,无论是口型还是同步的动作,都很优秀,就是对硬件要求略高,生成速度略慢。

主要特点

嘴巴同步超自然:用了Whisper-Large语音编码器(比之前版本强很多),说话时口型、节奏更准、更流畅。

稳定性强:适合生成较长的视频,人物身份(长相)保持一致,全身动作自然,不会轻易"穿模"或乱动。

支持多场景:能处理真人、动漫、动物;支持单人说话,也支持多人对话;还能拿东西、复杂互动。

生成速度快:优化后只需8步推理(以前可能要更多),速度快很多,还支持INT8量化省显存,比较适合实际使用。

输入灵活:支持纯语音+文字生成视频,或语音+图片生成视频,还能视频续接(把前面生成的继续往下演)。

应用领域

短视频/直播/虚拟主播:快速做出会说话的数字人主播。

电商营销:产品讲解视频、虚拟客服、带货主播。

教育/知识分享:老师讲解视频、知识科普。

娱乐/表演:唱歌、讲故事、角色扮演、动漫角色复活。

新闻播报、多人对话场景:虚拟新闻主播、对话节目。

影视/创意制作:快速生成演员试镜、动画预览等。

使用教程: (建议N卡,显存12G起,运存≥32G,支持50系显卡)

整合包包含所需所有节点,下载主程序和模型(ComfyUI文件夹),解压主程序一键包,将ComfyUI文件夹移动到主程序目录下即可。

双击启动,进入WebUI后,点击左侧的 工作流,选择对应的工作流。

支持单人和双人两种模式,单人模式上传一张一人出境图像,双人模式上传一张两人出境图像

输入提示词,设置相关参数,最后运行生成。

相关参数设置页面有说明,视频时长由num segments控制,为(93/25)时长的倍数,具体换算为:93/25=3.7,num segments就设置为2,大概7秒左右,以此类推

如果是单人模式,需要手动关闭双人组节点,如果上传的音频非唱歌音频,则需要手动关闭最左侧的"人声分离"节点。

因默认启用Flash_Attn加速,所以需要本地安装配置 MSVC编译环境

软件目录结构

📂 ComfyUI/

├── 📂 models/

│ ├── 📂 diffusion_models/

│ │ └── LongCat-Video-Avatar-1.5-int8.safetensors

│ ├── 📂 longcat/

│ │ ├──📂 vocal_separator

│ │ ├──📂 whisper-large-v3

│ ├── 📂 vae/

│ │ └── LongCat_Avatar_1.5_vae.safetensors

📂 deepface/

......

下载地址: 点此下载

相关推荐
RTC实战笔记9 天前
Android 实时音视频接入教程:媒体补充增强信息(SEI)
音视频·媒体·rtc
潜创微科技9 天前
HDMI1.3 无线传输芯片方案 空旷 150 米量产级音视频方案
音视频
VidDown10 天前
VidDown 工具站:免费、本地优先的开发者工具箱
javascript·编辑器·音视频·视频编解码·视频
换个昵称都难10 天前
音频格式之WAV
音视频
AI创界者10 天前
PilotTTS 一键整合包(Win/Mac):8G 显存畅跑,实测解锁情绪与副语言的精准控制
人工智能·macos·aigc·音视频
u1521096484910 天前
S.S.Audio PRO A2音频隔离器
嵌入式硬件·音视频·实时音视频·视频编解码·视频
VidDown10 天前
显卡处理视频技术详解:从硬解码到 NVENC,GPU 如何让视频处理起飞?
javascript·编辑器·音视频·视频编解码·视频
EasyDSS10 天前
全能音视频平台/私有化音视频系统EasyDSS!直播/点播/会议/集群对讲一站式落地
音视频
Damon_X10 天前
车载音频复习
音视频
3DVisionary10 天前
告别数据中断:XTDIC-VG视频引伸计在金属疲劳测试中3个真实案例
人工智能·音视频·应用案例·xtdic-vg·视频引伸计·疲劳测试·实战复盘