轻松识别几个小时的长音视频文件

前言

之前的文章绍一个准确率非常高的语音识别框架,但那个只能识别实时的短音频,如果想要识别一个非常长的音频,几十分钟,甚至几个小时,那之前的那个是做不到的所以就有了本文。本文介绍搭建一个长语音识别服务,可以把任意长度的音视频到识别结果。

启动Docker服务

需要把整个文件夹上传到服务器上,并在该目录执行以下命令:

编译Docker容器:

shell 复制代码
sudo docker build -t offline_asr .

修改权限:

shell 复制代码
sudo chmod +x run_server.sh

在项目根目录执行启动命令:

shell 复制代码
sudo docker run -p 10095:10095 -itd --privileged=true --name offline_asr -v $PWD/:/workspace/websocket offline_asr

重新启动服务,如果之前因为一些原因关闭了docker服务,可以执行下面命令重新启动,需要开机自启动的,把下面命令复制到开机自启动脚本中/etc/rc.local

shell 复制代码
sudo docker start offline_asr

测试服务

使用上面服务之后,可以执行下面命令测试一下服务是否正常启动可用。

shell 复制代码
python asr_client.py --wav_path=test.wav

搭建HTTP服务

上面搭建的是websocket的服务,使用起来非常不方便,所以下面提供了一个Websockt转http服务的程序,并且提供了网页可以上传音视频获取识别结果,启动HTTP服务命令如下。

shell 复制代码
python asr_server.py

访问http://192.168.0.100:6060打开页面,可以上传WAV、MP3、MP4等多种格式,同时也支持录制识别。

扫码入知识星球,搜索【FunASR语音识别长音频视频服务】获取源码

相关推荐
阿里云大数据AI技术33 分钟前
国内首家! 阿里云人工智能平台 PAI 通过 ITU 国际标准测评
人工智能·阿里云·云计算·itu
CRMEB系统商城4 小时前
多商户系统推动旅游业数字化升级与创新,定制化旅游促进市场多元化发展
大数据·人工智能·旅游
weixin_409411024 小时前
vllm在h100单机多卡上部署异常记录与可以尝试的解决方案
人工智能
chenchihwen6 小时前
大语言模型LLM的微调代码详解
人工智能·深度学习·语言模型
xianghan收藏册6 小时前
提示学习(Prompting)篇
人工智能·深度学习·自然语言处理·chatgpt·transformer
三月七(爱看动漫的程序员)6 小时前
Prompting LLMs to Solve Complex Tasks: A Review
人工智能·gpt·语言模型·自然语言处理·chatgpt·langchain·llama
robinfang20196 小时前
AI在医学领域:弱监督方法自动识别牙痕舌
人工智能·健康医疗
weixin_446260857 小时前
AI大模型学习
人工智能·学习
weixin_452600698 小时前
【青牛科技】D1117 1.0A低压差线性稳压电路芯片介绍,可保证了输出电压精度控制在±1.5%的范围内
人工智能·科技·单片机·嵌入式硬件·新能源充电桩·dvd 解码板
封步宇AIGC8 小时前
量化交易系统开发-实时行情自动化交易-4.4.1.做市策略实现
人工智能·python·机器学习·数据挖掘