语音音频(wav)声纹识别-技术实现-python

通过pyannote.audio 实现语音音频声纹识别。

安装:

python 复制代码
pip install pyannote.audio

示例音频下载地址:【免费】语音音频(WAV)声纹识别示例资源-CSDN文库

实现代码:

python 复制代码
from pyannote.audio import Model
from pyannote.audio import Inference
from scipy.spatial.distance import cdist
# 初始化模型
model = Model.from_pretrained("pyannote/wespeaker-voxceleb-resnet34-LM",cache_dir = "./ckpt/",local_files_only = False)

inference = Inference(model, window="whole")
# 获取音频的特征
embedding_1 = inference(r"audio_data\0\014.wav").reshape(1,-1) # id 为 0 的人的音频
embedding_2 = inference(r"audio_data\0\021.wav").reshape(1,-1) # id 为 0 的人的音频
embedding_3 = inference(r"audio_data\1\004.wav").reshape(1,-1) # id 为 1 的人的音频

print("embedding_1:",embedding_1.shape)

# 通过余弦相似度,比较音频特征向量间的距离,获取相似度,距离越小,特征越相近,可能为同一人说话的可能性越高。
distance_sim = cdist(embedding_1 , embedding_2 , metric="cosine")[0,0]
distance_not = cdist(embedding_1 , embedding_3 , metric="cosine")[0,0]

# 余弦距离越小越接近
print("相同人 Distance emb1 between emb2: " + str(distance_sim))
print("不同人 Distance emb1 between emb3: " + str(distance_not))

程序运行输出信息如下:

python 复制代码
相同人 Distance emb1 between emb2: 0.447950675466506
不同人 Distance emb1 between emb3: 0.7426738655303657
相关推荐
数智工坊几秒前
深度拆解 AnomalyCLIP:用 CLIP 做零样本异常检测,不看目标数据也能精准定位缺陷
人工智能
xcbrand几秒前
工业制造品牌全案公司找哪家
大数据·人工智能·python·制造
深蓝海拓2 分钟前
基于QtPy (PySide6) 的PLC-HMI工程项目(七)上位机通信部分的初步建设:socket客户端
网络·笔记·python·学习·plc
k笔墨丹青2 分钟前
三维重建(点云)
人工智能·机器学习·3d
别或许2 分钟前
线代中为什么左乘一个列满秩矩阵,不改变矩阵的秩?
人工智能·算法·矩阵
qiyongwork3 分钟前
软件项目成本估算新模式探析
人工智能·项目管理·产品经理
Guheyunyi3 分钟前
无人机巡检系统,高效精准守护全场景安全
大数据·人工智能·科技·安全·架构·无人机
前端摸鱼匠4 分钟前
【AI大模型春招面试题20】大模型训练中优化器(AdamW、SGD、RMSProp)的选择依据?
人工智能·ai·语言模型·面试·大模型·求职招聘
神秘剑客_CN4 分钟前
python安装requests及pandas
开发语言·python·pandas
人工智能AI技术6 分钟前
Python 循环基础:for、while、break、continue
python