0. 视频效果演示
大家可以先看看效果
Linux中部署FunASR实时语音识别接口
1. 背景介绍
FunASR是阿里巴巴开源一款可以实时语音识别,区分说话人,音频活动性检测等功能的项目,在github中拥有很多的star,大家也可以在github中搜索到这个开源项目。
在做通话语音实时转写,会议语音实时转写中,我们可以部署这个FunASR做为接口提供给公司的项目调用,就犹如你去调用讯飞或者阿里云的API接口一样。
2. 部署过程
这里以Ubuntu系统为例子,你也可以使用其它Linux发行版,并且经过验证支持国产Linux系统。这是以Ubuntu为例子,是因为在这个系统上部署对于我来说更简单,我更熟悉。
首先是下载docker镜像,可以从readme文档中找到最新的下载链接。
这里我上传我之前做四川话ASR的时候拉取的镜像到我的Ubuntu服务器中,并且解压。
shell
tar -zxvf asr_docker.tar.gz
解压之后可以看到下面的tar包,然后使用docker命令导入到docker中。
shell
docker load -i asr_docker.tar
查看一下是否正常导入
shell
docker images
可以看到有这个名为sichuan_asr:v2的镜像。
我们启动这个docker镜像,使用下面的命令
shell
docker run -it -p 9090:9090 -p 10095:10095 -v /usr/local/src/asr/models:/workspace/models sichuan_asr:v2
启动后会自动进入到docker内,然后切换路径
shell
cd FunASR/runtime
启动websocket接口
shell
bash run_server_2pass.sh
最后启动web端,作为演示用,如果你正式上线生产环境,可以不启动下面的web端
shell
cd html5 && python h5Server.py --port 9090
现在就可以打开浏览器输入你的公网ip地址加上9090端口,就可以访问到你部署好的实时语音识别项目了。第一次访问会提示不安全,点击"高级",然后点击"继续前往"就可以访问到你部署好的项目了。
注意:你如果部署在阿里云、腾讯云等云服务器中,你需要在控制台的安全组里开放9090端口和10095端口。还有如果你的宿主Linux服务器也开启了防火墙,也需要开放这两个端口。
3. 联系
更多内容可以点击这里访问我的博客
视频演示和部署教程可以访问这里
如需有偿在Linux中部署实时语音识别接口,或者录音转写接口并且区分说话人,可以在上面我的博客中首页联系到我。