语音识别——声纹识别

通过将说话人的声音与数据库中的记录声音进行比对,判断说话人是否为数据库白名单中的同一人,从而完成语音验证。目前,3D-Speaker 声纹验证的效果较为出色。

3D-Speaker 是一个开源工具包,可用于单模态和多模态的说话人验证、说话人识别以及说话人日志分割

模型使用方法如下:

python 复制代码
# 声纹识别测试
# 采样率要为16k

from modelscope.pipelines import pipeline
sv_pipeline = pipeline(
    task='speaker-verification',
    model=r'D:\Downloads\speech_campplus_sv_zh-cn_3dspeaker_16k'
)
speaker1_a_wav = 'https://modelscope.cn/api/v1/models/damo/speech_campplus_sv_zh-cn_3dspeaker_16k/repo?Revision=master&FilePath=examples/speaker1_a_cn_16k.wav'
speaker1_b_wav = 'https://modelscope.cn/api/v1/models/damo/speech_campplus_sv_zh-cn_3dspeaker_16k/repo?Revision=master&FilePath=examples/speaker1_b_cn_16k.wav'
speaker2_a_wav = 'https://modelscope.cn/api/v1/models/damo/speech_campplus_sv_zh-cn_3dspeaker_16k/repo?Revision=master&FilePath=examples/speaker2_a_cn_16k.wav'

# speaker1_a_wav = r'D:\Downloads\ASR-LLM-TTS-master\ASR-LLM-TTS-master\my_recording.wav'
# speaker1_b_wav = r'D:\Downloads\ASR-LLM-TTS-master\ASR-LLM-TTS-master\my_recording_1.wav'
# speaker2_a_wav = r'D:\Downloads\ASR-LLM-TTS-master\ASR-LLM-TTS-master\my_recording_2.wav'


# 相同说话人语音
result = sv_pipeline([speaker1_a_wav, speaker1_b_wav])
print(result)
# 不同说话人语音
result = sv_pipeline([speaker1_a_wav, speaker2_a_wav])
print(result)
# 可以自定义得分阈值来进行识别
result = sv_pipeline([speaker1_a_wav, speaker2_a_wav], thr=0.6)
print(result)
相关推荐
m0_74015467几秒前
《k-means 散点图可视化》实验报告
人工智能·机器学习·kmeans
zhz5214几秒前
AI数字人融合VR全景:开启未来营销与交互新篇章
人工智能·ai·交互·vr·ai编程·智能体
智源研究院官方账号2 分钟前
智源联合南开大学开源Chinese-LiPS中文多模态语音识别数据集
人工智能·语音识别
Thomas_YXQ13 分钟前
Unity3D Overdraw性能优化详解
开发语言·人工智能·性能优化·unity3d
家庭云计算专家26 分钟前
还没用过智能文档编辑器吗?带有AI插件的ONLYOFFICE介绍
服务器·人工智能·docker·容器·编辑器
ayiya_Oese1 小时前
[训练和优化] 3. 模型优化
人工智能·python·深度学习·神经网络·机器学习
小众AI1 小时前
Suna: 开源多面手 AI 代理
人工智能·开源
就不爱吃大米饭1 小时前
Chrome代理IP配置教程常见方式附问题解答
大数据·人工智能·搜索引擎
-一杯为品-1 小时前
【深度学习】#11 优化算法
人工智能·深度学习·算法
兔兔爱学习兔兔爱学习1 小时前
读论文alexnet:ImageNet Classification with Deep Convolutional Neural Networks
人工智能