无声视频自动配音效,开源模型thinksound 和mmaudio复现

朋友们,好久没看csdn 发现自己的文章还有人在看,所以还是来更新了

最近ASMR 的视频蛮火的,就是切开任何东西会发出声音,但我看教程都是走到app 的自动生成音效感觉无趣,还是自己复现

1、thinksound

最近一致排名挺高的一个项目,但是我个人感觉应该是训练的问题,效果真的不怎么好。
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editinghttps://thinksound-project.github.io/ 它利用思维链(CoT)推理,实现视频的逐步交互式音频生成和编辑。Cot 的应用哦

我先贴出来效果:我试了很多都不是很好,如果是我操作问题欢迎大家指正

5_thihksound

复现流程

1、打开github

https://github.com/FunAudioLLM/ThinkSoundhttps://github.com/FunAudioLLM/ThinkSound2、到本地存放项目的文件夹下 shift 加右键 打开cmd ,并git clone 仓库

bash 复制代码
git clone https://github.com/liuhuadai/ThinkSound.git

然后使用自己的编译器打开哦

3、我推荐window 用户直接双击setup_windows.bat 进行安装环境,前提是有conda ,我使用的windows ,安装流程没有问题, 最后一步会 从huggingface 下载模型,如果你存在 网络问题,或者翻墙问题,可以去自行下载

bash 复制代码
git lfs install
git clone https://huggingface.co/liuhuadai/ThinkSound ckpts

4、激活环境后 直接运行界面就可以,会进行一次下载,没有大问题

python app.py

2、mmaudio

我个人感觉这个不算新的项目反而表现的很好

5_mmaudio

1、来到github 同样进行clone

https://github.com/hkchengrex/MMAudiohttps://github.com/hkchengrex/MMAudio2、我用刚才的thinksound 直接进行也可以重新创建新环境

bash 复制代码
conda create -n mmaudio python==3.9
conda activate mmaudio

然后去torch 官网安装适合自己cuda 版本的torch ,要求2.5.1以上,比如下面

bash 复制代码
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --upgrade

最后去安装项目

bash 复制代码
cd MMAudio
pip install -e .

如果报错就是先进行pip 的更新pip install --upgrade pip

3、同样推荐直接运行界面

python gradio_demo.py

会进行模型下载,我没遇到什么问题,如果有问题留言,我偶尔回来看看,对了视频是wan2.1 本地生成的

相关推荐
北京地铁1号线18 分钟前
机器学习笔试选择题:题组2
人工智能·算法·机器学习
heeheeai31 分钟前
决策树,随机森林,boost森林算法
算法·决策树·随机森林·kotlin·boost
程序视点38 分钟前
全球最强编程模型Claude Sonnet 4.5发布,性能暴涨30%,速度更快、降智问题彻底解决
aigc·ai编程·claude
算家云40 分钟前
OpenAI秘密测试ChatGPT安全路由,情感对话触发GPT-5严格审查
人工智能·chatgpt·算家云·openai秘密测试安全路由·算家计算·租算力,就到算家云
新加坡内哥谈技术41 分钟前
OpenAI近日推出了一项名为 ChatGPT Pulse 的全新功能
人工智能·chatgpt
hunteritself42 分钟前
DeepSeek V3.1-Terminus、阿里 Qwen3-Max、ChatGPT Pulse 同周登场!| AI Weekly 9.22-9.28
人工智能·ios·chatgpt·语音识别·iphone
ai_xiaogui1 小时前
ChatGPT开源模型发布!部署20B/120B AI模型实战指南
人工智能·chatgpt·20b 120b模型部署教程·本地部署chatgpt模型实战·高性能加速开源ai模型开发·开源模型windows配置方法
春末的南方城市1 小时前
阿里开源视频修复方法Vivid-VR:以独特策略与架构革新,引领生成视频修复高质量可控新时代。
人工智能·深度学习·机器学习·计算机视觉·aigc
Juchecar1 小时前
人工智能重塑人类生活范式
人工智能
FIT2CLOUD飞致云1 小时前
飞致云开源社区月度动态报告(2025年9月)
人工智能·开源