目标
支持 Matcha-TTS,长文本自然合成音频文件。
实现
基于 Eclipse RCP 技术框架开发,企业级应用的技术。
核心组件
- 前端框架:Eclipse SWT(Standard Widget Toolkit)
- 推理后端:ONNX Runtime
- 语音识别模型:Paraformer 等 ONNX 编码器-解码器
- 语音活动检测:VAD 模型(Silero VAD)
- 标点恢复模型:基于 BART 的中文标点预测模型(punctuation-zh-bart)
- Matcha-TTS:长文本自然合成音频文件。
文本转语音