Something wrong with the VAD algorithm

1、错误原因

调用阿里语音识别模型 paraformer-large-zh 进行多线程推理时出现错误内容如下:

bash 复制代码
warning

Something wrong with the VAD algorithm

或

VAD data_to_pop is bigger than cache["stats"].data_buf .size() !!!

error in calling pop data_buf

代码调用使用funasr库加载,如下:

python 复制代码
from funasr import AutoModel

model = AutoModel(model="paraformer-zh", model_revision="v2.0.4",
                  vad_model="fsmn-vad", vad_model_revision="v2.0.4",
                  punc_model="ct-punc-c", punc_model_revision="v2.0.4"
                  )
res = model.generate(input=f"{model.model_path}/example/asr_example.wav", 
            batch_size_s=300, 
            hotword='魔搭')
print(res)

上述代码使用了语音识别model="paraformer-zh"、端点检测vad_model="fsmn-vad"、标点符号模型punc_model="ct-punc-c",其中,vad和punc是协同使用的,而业务中多线程并发推理时出现了错误:Something wrong with the VAD algorithm,主要是vad算法的错误,最后通过多线程模拟发现语音识别过程中,vad模型无法并发调用。

2、业界方法

实际上提出该问题的博文较多,如funasr官方github 的issue中均有提及,但没有官方回复,有一位老哥提出了队列方法的解法 。各位可以看看,后面我提出我的解法及启发解法

3、解法

其实本质就是解决语音识别中三个模型不能并发调用的问题,在多线程环境里,我们可以使用线程锁来解决,只需要添加几行代码,就能解决该错误,下面我来举个例子如何添加,首先需要明确一点,多线程访问共享资源时,需要加锁,比如语音识别模型,读写统一文件等等,而我们加锁只需要加在实际语音模型的调用函数中,模型初始化、传参过程不需要加锁,比如你在deal.py文件中使用了语音识别模型asr_model

python 复制代码
# deal.py

def deal(audio_name):
    result = asr_model.generate(input=audio_name,
                                batch_size_s=300,
                                hotword=[])
    result 处理

加锁方式如下:

python 复制代码
# deal.py

import threading
lock = threading.Lock()

def deal(audio_name):
    with lock:
        result = asr_model.generate(input=audio_name,
                                    batch_size_s=300,
                                    hotword=[])
    result 继续处理

如上方式即可实现多线程并发调用语音识别模型,实现方法简单,可快速实现,在调用代码中添加锁即可。

上述思想也可以理解为队列方式,只不过这个队列我是通过线程锁来实现的,亲测有效,如有问题评论区交流。

相关推荐
未来之窗软件服务1 小时前
vosk-ASR angular调用[AI人工智能(五十二)]—东方仙盟
人工智能·语音识别·vosk·仙盟创梦ide·东方仙盟
l1t6 小时前
使用ffmpeg把英语四级听力MP3文件转成wav供模型识别
ffmpeg·语音识别
智慧地球(AI·Earth)7 小时前
谷歌发布 Gemini Embedding 2:首个原生全模态向量模型,打通音视频与图文!
音视频·语音识别·embedding
BIBABULALA7 小时前
语音算法面试复习系列3——语音识别基础 + CTC 详解
语音识别
fanxianshi1 天前
2026 年 3 月行业动态与开源生态全景报告
人工智能·深度学习·神经网络·机器学习·计算机视觉·开源·语音识别
Dev7z2 天前
基于MATLAB改进小波阈值函数的信号降噪方法研究
人工智能·语音识别
EasyDSS2 天前
EasyDSS如何基于LiveKit/AI大模型/AI会议助手/语音转写STT技术破解音视频应用核心痛点
人工智能·音视频·webrtc·语音识别·点播技术·流媒体直播
ViiTor_AI2 天前
ElevenLabs 语音克隆工具深度评测:价格、功能与最佳替代方案
人工智能·语音识别
HySpark2 天前
解决语音角色识别中的误识别与长会漂移问题(陌生人机制 + 稳定性规则)
人工智能·语音识别
EasyDSS4 天前
音视频技术迭代下EasyDSS直播点播视频会议能力的发展方向与价值升级
音视频·webrtc·语音识别·点播技术·流媒体直播