技术栈

长文本语音

Java后端何哥
1 天前
语音识别·paraformer语音识别·阿里巴巴达摩院开源语音模型·长文本语音
Paraformer语音识别-中文-通用-16k-离线-large-长音频版前言:Paraformer-large长音频模型集成VAD、ASR、标点与时间戳功能,可直接对时长为数小时音频进行识别,并输出带标点文字与时间戳。ASR模型:Parformer-large模型结构为非自回归语音识别模型,多个中文公开数据集上取得SOTA效果,可快速地基于ModelScope对模型进行微调定制和推理。热词版本:Paraformer-large热词版模型支持热词定制功能,基于提供的热词列表进行激励增强,提升热词的召回率和准确率。