FunASR语音识别框架流式识别模型切换

模型配置差异

不支持流式的模型组合

  • ASR模型路径:damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx
  • 标点模型路径:damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx

支持流式的模型组合

  • ASR模型路径:damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-onnx
  • 标点模型路径:damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx

关键区别分析

ASR模型差异

非流式模型包含VAD(语音活动检测)和标点模块(-vad-punc后缀),适用于整段音频处理。流式模型仅包含基础ASR功能(无VAD和标点集成),依赖外部实时分段处理。

标点模型差异

非流式标点模型支持中英混合文本(cn-en),设计为离线处理。流式标点模型专为中文实时场景优化(zh-cn后缀),并标注realtime特性,支持低延迟流水线。

应用场景建议

非流式模型

适合离线任务如录音文件转写,依赖完整上下文生成标点,输出结果需后期处理。模型集成VAD自动分割静音片段。

流式模型

适配实时场景如会议转录,需配合流式VAD分段输入。标点模型针对分片文本优化,延迟更低,但可能牺牲部分标点准确性。

部署注意事项

  • 流式处理需额外实现音频分块逻辑(如WebSocket),非流式可直接提交完整音频。
  • 标点模型需与ASR模型语言类型匹配,混合语言场景应选择cn-en版本。