HunyuanVideo-Foley V2版 - AI视频配音自动识别视频内容并配音支持50系显卡一键整合包下载

HunyuanVideo-Foley 是腾讯开源的一款 AI视频配音工具，可以自动理解视频内容，并为其配上生成逼真的音效，让画面和声音完美同步。它的目标是帮助视频创作者快速获得高质量的背景声、动作声和环境音，而不用再手工录制或后期合成。

HunyuanVideo-Foley 就像一个"AI 音效师"，能自动为视频生成高质量、同步的音效，特别适合短视频、影视、广告和游戏制作。它降低了创作者的门槛，让专业级音效更容易获得。

今天分享的 HunyuanVideo-Foley V2版，和上个版本不同的是对硬件要求更低，上个版本需要最少16G显存 运行，而V2版更适合消费级显卡使用，最小只需要6G显存即可运行，我在ComfyUI工作流的基础上制作了更适合小白使用WebUI，需要更多功能设置的专业用户，可以使用ComfyUI模式。

下载地址： 点此下载

核心特点

自动生成音效：只需输入视频和简单的文字描述，模型就能生成与画面动作匹配的声音，比如脚步声、关门声、雨声等。

多模态理解：它不仅看视频，还能结合文字提示，确保生成的声音既符合画面，又符合语义。

高保真音质：支持 48kHz Hi-Fi 输出，声音清晰度达到专业级别，可直接用于影视或游戏。

精准同步：采用专门的同步算法（Synchformer），保证声音和视频动作在时间上对齐，不会出现"嘴型对不上声音"的问题。

应用领域

短视频创作：博主或自媒体可以快速给视频加上真实音效，提高观感。

影视后期：电影、电视剧制作中，用来生成环境音或动作音效，节省人工录音成本。

广告创意：广告片中需要快速匹配音效，AI 可以自动生成，提升效率。

游戏开发：为游戏场景生成沉浸式音效，增强玩家体验。

教育与研究：作为多模态 AI 的研究工具，用于探索视频、文本和音频的结合。

使用教程： （建议N卡，显存8G起，支持50系显卡）

下载主程序和模型（ComfyUI文件夹），解压主程序一键包，将ComfyUI文件夹移动到主程序目录下即可

上传需要配音的无声视频，设置参数，比如生成视频宽度，生成音频时长等，生成即可。

软件目录结构：

📂 ComfyUI/

├── 📂 models/

│ ├── 📂 foley/

│ └── hunyuanvideo_foley_fp8_e4m3fn.safetensors

│ └── vae_128d_48k_fp16.safetensors

│ └── synchformer_state_dict_fp16.safetensors

📂 deepface/

......

HunyuanVideo-Foley V2版 - AI视频配音 自动识别视频内容并配音 支持50系显卡 一键整合包下载

HunyuanVideo-Foley V2版 - AI视频配音自动识别视频内容并配音支持50系显卡一键整合包下载