基于Pytorch实现的说话人日志(说话人分离)

前言

VoiceprintRecognition_Pytorch 是博主开源的一款声纹识别框架,该框架支持EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法,支持AAMLoss、AMLoss、ARMLoss、CELoss等多种损失函数。该框架支持多种关于声纹识别的处理,比如声纹对,比声纹检索,以及本文章需要介绍的说话人日志(说话人分离)。

使用说话人日志

关于模型的获取,开发者可以自己训练模型,也可以下载博主提供的模型。具体获取方法请去VoiceprintRecognition_Pytorch开源地址查看。这里只介绍如何使用该框架的说话人日志功能。

执行infer_speaker_diarization.py程序,输入音频路径,就可以分离出说话人,并显示结果,建议音频长度不要低于10秒。更多功能可以查看该程序参数。

shell 复制代码
python infer_speaker_diarization.py --audio_path=dataset/test_long.wav

输出类似如下,从日志里面可以看出,它不仅可以分离音频中每个说话人的说话位置,而且还能够识别是谁说了哪些话,不过这个是要提前注册的:

复制代码
2024-10-10 19:30:40.768 | INFO     | mvector.predict:__init__:61 - 成功加载模型参数:models/CAMPPlus_Fbank/best_model/model.pth
2024-10-10 19:30:40.795 | INFO     | mvector.predict:__create_index:127 - 声纹特征索引创建完成,一共有3个用户,分别是:['沙瑞金', '夜雨飘零', '李达康']
2024-10-10 19:30:40.796 | INFO     | mvector.predict:__load_audio_db:142 - 正在加载声纹库数据...
100%|██████████| 3/3 [00:00<?, ?it/s]
2024-10-10 19:30:40.798 | INFO     | mvector.predict:__create_index:127 - 声纹特征索引创建完成,一共有3个用户,分别是:['沙瑞金', '夜雨飘零', '李达康']
2024-10-10 19:30:40.798 | INFO     | mvector.predict:__load_audio_db:172 - 声纹库数据加载完成!
识别结果:
{'speaker': '沙瑞金', 'start': 0.0, 'end': 2.0}
{'speaker': '陌生人1', 'start': 4.0, 'end': 7.0}
{'speaker': '李达康', 'start': 7.0, 'end': 8.0}
{'speaker': '沙瑞金', 'start': 9.0, 'end': 12.0}
{'speaker': '沙瑞金', 'start': 13.0, 'end': 14.0}
{'speaker': '陌生人1', 'start': 15.0, 'end': 19.0}

显示结果图像如下,可以通过空格键控制播放音频,点击位置可以跳转音频到指定位置:

项目同样提供了GUI界面的程序,执行infer_speaker_diarization_gui.py程序。更多功能可以查看该程序参数。

shell 复制代码
python infer_speaker_diarization_gui.py

可以打开这样一个页面,进行说话人识别:

注意:如果说话人名字是中文的,需要设置安装字体才能正常显示,一般情况下Windows无需安装,Ubuntu需要安装。如果Windows确实是缺少字体,只需要字体文件这里下载.ttf格式的文件,复制到C:\Windows\Fonts即可。Ubuntu系统操作如下。

  1. 安装字体
shell 复制代码
git clone https://github.com/tracyone/program_font && cd program_font && ./install.sh
  1. 执行下面Python代码
python 复制代码
import matplotlib
import shutil
import os

path = matplotlib.matplotlib_fname()
path = path.replace('matplotlibrc', 'fonts/ttf/')
print(path)
shutil.copy('/usr/share/fonts/MyFonts/simhei.ttf', path)
user_dir = os.path.expanduser('~')
shutil.rmtree(f'{user_dir}/.cache/matplotlib', ignore_errors=True)

其他版本

同时博主也开源了PaddlePaddle版本的,功能一致,如有需要可以说明这个地址:VoiceprintRecognition-PaddlePaddle

相关推荐
Raink老师3 小时前
【AI面试临阵磨枪-70】Agent 系统如何做分布式调度、跨服务协作、故障恢复?
人工智能·面试·职场和发展
lishi_19913 小时前
一键部署MoviePilotV2实现NAS全自动追剧
python·媒体·moviepilot
tedcloud1233 小时前
RTK部署教程:构建稳定的AI Workflow环境
服务器·javascript·人工智能·typescript·ocr
Raink老师3 小时前
【AI面试临阵磨枪-71】如何用 AI 优化推荐系统、内容审核、广告创意、搜索体验?
人工智能·面试·职场和发展
AI医影跨模态组学3 小时前
Biomarker Res(IF=11.5)安徽医科大学第一医院:基于机器学习的放射组学模型:子宫内膜癌患者的预后预测及机制探索
人工智能·深度学习·论文·医学·医学影像·影像组学
ftpeak3 小时前
Mooncake:以 KVCache 为中心的分离式 LLM 服务架构
人工智能·ai·架构·ai编程·ai开发
Terrence Shen3 小时前
Hermes agent的tools是怎么落地应用的系列
人工智能·llm·agent·hermes
Raink老师3 小时前
【AI面试临阵磨枪-72】电商全场景 AI Agent 设计(商品咨询 / 订单 / 物流 / 售后 / 退款)
人工智能·面试·职场和发展
仙女修炼史3 小时前
CNN更看重Texture还是shape:imagenet-trained cnns are biased
论文阅读·人工智能·cnn
视***间4 小时前
视程空间 AIR SC6N0-C-MB NX 16GB 规格详解与机器人/机器狗适配说明
人工智能·机器人·边缘计算·机器狗·ai算力·具身机器人·视程空间