FunASR的Java实现Paraformer实时语音识别 | 一款无需联网的本地实时字幕软件

Luke Ewin2025-09-07 15:34

0. 开发背景

我们在看直播时，没有视频字幕，可能看惯了视频字幕，来到直播中缺少字幕会感觉不习惯，特别是对于听力障碍的人群，只能依赖于字幕，那么这个软件可以解决直播，在线会议等场景中无字幕的情况。此外，我们还可以用于人机交互中，以及智能呼叫中心系统中（实时语音质检）。因此，开发一款可以运行在普通CPU中的实时字幕软件很有必要。

1. 使用技术栈

该软件使用JavaFX开发，为何是使用Java来开发桌面应用软件，因此作者我熟悉Java，对于其它开发语言没那么熟悉，所以选择了Java作为开发语言。

为了能够在内网或者是断开网络的情况下使用，这里不是调用云API方式实现，而是采用了本地电脑算力进行推理，并且不要求使用GPU，只需普通的CPU就可以进行实时语音识别，同时占用的资源很低。

模型采用国内大厂阿里巴巴达摩院开源的Paraformer-Streaming流式模型，导出为onnx格式，然后使用onnxruntime推理框架来推理。可以对模型进行int8规格的量化，使得占用的资源更少，推理的速度更快，关键是量化后模型精度基本不受影响。

2. 功能介绍

具体功能：

可以背景颜色透明，防止遮挡其它窗口。当鼠标停留在上面时，会显示半透明状态，方便用户设置软件。
可以设置显示的字体大小和字体颜色。
可以拖动显示的位置，默认在主屏幕的下方居中显示，如果你还有副屏，可以把字体显示拖动到副屏中。

3. 软件效果演示

Java开发的实时语音识别项目 | 实时语音识别 | 内网可用实时语音识别项目 | 开源的实时语音识别模型 | FunASR

4. 其它

项目已经开源，点击这里访问项目源码，如果无法访问，可以点击这里。

博客：点击这里。