FunASR的Java实现Paraformer实时语音识别 | 一款无需联网的本地实时字幕软件

0. 开发背景

我们在看直播时,没有视频字幕,可能看惯了视频字幕,来到直播中缺少字幕会感觉不习惯,特别是对于听力障碍的人群,只能依赖于字幕,那么这个软件可以解决直播,在线会议等场景中无字幕的情况。此外,我们还可以用于人机交互中,以及智能呼叫中心系统中(实时语音质检)。因此,开发一款可以运行在普通CPU中的实时字幕软件很有必要。

1. 使用技术栈

该软件使用JavaFX开发,为何是使用Java来开发桌面应用软件,因此作者我熟悉Java,对于其它开发语言没那么熟悉,所以选择了Java作为开发语言。

为了能够在内网或者是断开网络的情况下使用,这里不是调用云API方式实现,而是采用了本地电脑算力进行推理,并且不要求使用GPU,只需普通的CPU就可以进行实时语音识别,同时占用的资源很低。

模型采用国内大厂阿里巴巴达摩院开源的Paraformer-Streaming流式模型,导出为onnx格式,然后使用onnxruntime推理框架来推理。可以对模型进行int8规格的量化,使得占用的资源更少,推理的速度更快,关键是量化后模型精度基本不受影响。

2. 功能介绍

具体功能:

  1. 可以背景颜色透明,防止遮挡其它窗口。当鼠标停留在上面时,会显示半透明状态,方便用户设置软件。
  2. 可以设置显示的字体大小和字体颜色。
  3. 可以拖动显示的位置,默认在主屏幕的下方居中显示,如果你还有副屏,可以把字体显示拖动到副屏中。

3. 软件效果演示

Java开发的实时语音识别项目 | 实时语音识别 | 内网可用实时语音识别项目 | 开源的实时语音识别模型 | FunASR

4. 其它

项目已经开源,点击这里访问项目源码,如果无法访问,可以点击这里

博客:点击这里

相关推荐
_UMR_16 小时前
springboot集成Jasypt实现配置文件启动时自动解密-ENC
java·spring boot·后端
程序员小假16 小时前
我们来说说 Cookie、Session、Token、JWT
java·后端
DX_水位流量监测17 小时前
大坝安全监测之渗流渗压位移监测设备技术解析
大数据·运维·服务器·网络·人工智能·安全
昵称已被吞噬~‘(*@﹏@*)’~17 小时前
【RL+空战】学习记录03:基于JSBSim构造简易空空导弹模型,并结合python接口调用测试
开发语言·人工智能·python·学习·深度强化学习·jsbsim·空战
短剑重铸之日17 小时前
《SpringBoot4.0初识》第一篇:前瞻与思想
java·开发语言·后端·spring·springboot4.0
Yeats_Liao17 小时前
MindSpore开发之路(二十四):MindSpore Hub:快速复用预训练模型
人工智能·分布式·神经网络·机器学习·个人开发
老周聊架构17 小时前
基于YOLOv8-OBB旋转目标检测数据集与模型训练
人工智能·yolo·目标检测
AKAMAI17 小时前
基准测试:Akamai云上的NVIDIA RTX Pro 6000 Blackwell
人工智能·云计算·测试
蓝色王者17 小时前
springboot 2.6.13 整合flowable6.8.1
java·spring boot·后端
寂寞恋上夜17 小时前
异步任务怎么设计:轮询/WebSocket/回调(附PRD写法)
网络·人工智能·websocket·网络协议·markdown转xmind·deepseek思维导图