技术栈

音频预处理

HySpark
2 小时前
webrtc·vad·离线语音转写·流式asr·qwen-asr·音频预处理
VAD 与流式 ASR 踩坑复盘及完整解决方案大家好,我是语音算法与端侧AI开发的工程师。近期一直在维护自研会议产品熙瑾会悟的离线转记模块。本以为接入开源流式ASR模型就能快速上线,结果在实测阶段接连踩坑:人声截断、静音幻觉、断句错乱、推理卡顿。
我是有底线的