目标
语音词典:校正多音字拼音以及声调读音。
文本转语音:长文本自然合成音频文件,同步生成字幕文件。
拼音词典:校正多音字与冷门词注音。
字幕视频:音频 + 背景图 + 字幕合成硬/软字幕 MP4 视频。
实现
基于 Eclipse RCP 技术框架开发,企业级应用的技术。
核心组件
- 前端框架:Eclipse SWT(Standard Widget Toolkit)
- 推理后端:ONNX Runtime
- 语音识别模型:Paraformer 等 ONNX 编码器-解码器
- 文本注音 :pinyin
AI文字有声