目标
音频 + 背景图 + 字幕合成硬/软字幕 MP4 视频。
实现
基于 Eclipse RCP 技术框架开发,企业级应用的技术。
核心组件
- 前端框架:Eclipse SWT(Standard Widget Toolkit)
- 推理后端:ONNX Runtime
- 语音识别模型:Paraformer 等 ONNX 编码器-解码器
- 语音活动检测:VAD 模型(Silero VAD)
- 标点恢复模型:基于 BART 的中文标点预测模型(punctuation-zh-bart)
- 字幕视频合成:ffmpeg
字幕视频