开源的说话人分离项目 | 可以对指定的音频分离不同的说话人 | 通话录音中分离不同的说话人

项目地址

https://github.com/lukeewin/AudioSeparationGUI

运行环境

任意 PC 端

python version >= 3.8

安装

如果使用 GPU 来运行,需要安装好 CUDA

安装 ffmpeg,可以到 ffmpeg 官方地址中下载可执行程序,配置环境变量

按依赖

shell 复制代码
pip install -U funasr modelscop ffmpeg-python

安装 torch,需要根据你电脑情况安装不同的版本,具体可以到 torch 中复制命令安装

运行

shell 复制代码
python app.py

效果

本地可运行的说话人拆分 | 说话人分离

其它

这个程序适合个人 PC 端使用,如果需要服务端接口,支持多路并发,支持大规模集群部署,欢迎联系我。

个人技术博客1:https://lukeewin.top

个人技术博客2:https://blog.lukeewin.top

相关推荐
yy我不解释13 分钟前
关于comfyui的mmaudio音频生成插件时时间不一致问题(三)
开发语言·python·ai作画·音视频·comfyui
冗量19 分钟前
langchain的学习路径
python·langchain
love530love27 分钟前
不用聊天软件 OpenClaw 手机浏览器远程访问控制:Tailscale 配置、设备配对与常见问题全解
人工智能·windows·python·智能手机·tailscale·openclaw·远程访问控制
站大爷IP36 分钟前
Python 合并 PDF 文件(批量处理方法)
python
2501_9454235437 分钟前
工具、测试与部署
jvm·数据库·python
Oueii37 分钟前
数据分析师的Python工具箱
jvm·数据库·python
weixin_4219226943 分钟前
使用Scikit-learn进行机器学习模型评估
jvm·数据库·python
Liu628881 小时前
如何为开源Python项目做贡献?
jvm·数据库·python
mygugu1 小时前
详细分析swanlab集成mmengine底层实现机制--源码分析
python·深度学习·可视化