0. 研究背景
在外呼系统中,我们的后台管理系统通常要对电话录音的内容进行提取和分析。那么说到分析,我们就要对录音中的两个人的对话进行分离,然后分别分析,比如分析客户是否有合作的意愿,分析客服讲的话术是否合理,分析客户情绪等等。那么这里就需要首先做说话人的分离。目前市面上有众多的说话人分离开源项目,其它国内比较知名的是阿里巴巴旗下的3D-Speaker
。
为了测试3D-Speaker
看看能否对电话录音中的说话人分离情况,自己租了一台服务器,然后进行搭建,下面是我的搭建过程,本篇文章主要记录我搭建过程中遇到的一些问题,以及最后测试的情况。
1. 环境介绍
OS: Ubuntu Server 22.04
Python: 3.11
2. 开始搭建
创建环境
shell
conda create -n spk python=3.11
conda activate spk
克隆源码
shell
git clone https://github.com/modelscope/3D-Speaker.git
cd 3D-Speaker
安装依赖
shell
pip install -r requirements.txt
注意:我实际在安装过程中修改了这个文件,把scikit-learn
删除了,因为不删除,在安装过程中会报错,需要通过conda
命令安装。
shell
conda install scikit-learn
此外还需要安装下面依赖
shell
cd egs/3dspeaker/speaker-diarization
pip install requirements.txt
注意:我实际在执行之前删掉了里面的一些依赖,有些依赖安装过程中报没有找到。打开这个文件,我删除了pyannote
的依赖,然后手动安装了pyannote-audio
。还有,在实际安装过程中会报numba
问题,是因为这个文件中规定了版本,所以需要把文件中的版本号删掉。
shell
pip install pyannote-audio
此外还有一些依赖需要手动安装
shell
pip install onnx simplejson datasets==2.20.0 pydub onnxconverter_common
3. 测试
运行下面代码来测试
python
from speakerlab.bin.infer_diarization import Diarization3Dspeaker
wav_path = "audio.wav"
pipeline = Diarization3Dspeaker()
print(pipeline(wav_path, wav_fs=None, speaker_num=None)) # can also accept WAV data as input
但是经过测试发现对这个audio.wav
录音不没有正确区分说话人。
4. 优化
目前试过使用cam++
以及使用pyannote-audio
都未能正常区分出通话录音中的每个说话人。于是自己根据常规做法,先通过vad
算法获取到每段声音的时间戳,然后对其每个音频片段计算声纹特征值向量,然后通过无监督聚类算法对其声纹特征相似的片段聚类。
最终实现了通话录音区分说话人的语音识别。
5. 其它
更多内容欢迎访问我的博客
说话人识别GUI
程序可访问我的淘宝
相关演示视频,可在我的B
站《编程分享录》
个人github
代码仓库,可访问这里