轻松识别几个小时的长音视频文件

前言

之前的文章绍一个准确率非常高的语音识别框架,但那个只能识别实时的短音频,如果想要识别一个非常长的音频,几十分钟,甚至几个小时,那之前的那个是做不到的所以就有了本文。本文介绍搭建一个长语音识别服务,可以把任意长度的音视频到识别结果。

启动Docker服务

需要把整个文件夹上传到服务器上,并在该目录执行以下命令:

编译Docker容器:

shell 复制代码
sudo docker build -t offline_asr .

修改权限:

shell 复制代码
sudo chmod +x run_server.sh

在项目根目录执行启动命令:

shell 复制代码
sudo docker run -p 10095:10095 -itd --privileged=true --name offline_asr -v $PWD/:/workspace/websocket offline_asr

重新启动服务,如果之前因为一些原因关闭了docker服务,可以执行下面命令重新启动,需要开机自启动的,把下面命令复制到开机自启动脚本中/etc/rc.local

shell 复制代码
sudo docker start offline_asr

测试服务

使用上面服务之后,可以执行下面命令测试一下服务是否正常启动可用。

shell 复制代码
python asr_client.py --wav_path=test.wav

搭建HTTP服务

上面搭建的是websocket的服务,使用起来非常不方便,所以下面提供了一个Websockt转http服务的程序,并且提供了网页可以上传音视频获取识别结果,启动HTTP服务命令如下。

shell 复制代码
python asr_server.py

访问http://192.168.0.100:6060打开页面,可以上传WAV、MP3、MP4等多种格式,同时也支持录制识别。

扫码入知识星球,搜索【FunASR语音识别长音频视频服务】获取源码

相关推荐
min1811234561 分钟前
PC端零基础跨职能流程图制作教程
大数据·人工智能·信息可视化·架构·流程图
愚公搬代码14 分钟前
【愚公系列】《AI+直播营销》015-直播的选品策略(设计直播产品矩阵)
人工智能·线性代数·矩阵
静听松涛13319 分钟前
中文PC端多人协作泳道图制作平台
大数据·论文阅读·人工智能·搜索引擎·架构·流程图·软件工程
学历真的很重要39 分钟前
LangChain V1.0 Context Engineering(上下文工程)详细指南
人工智能·后端·学习·语言模型·面试·职场和发展·langchain
IT=>小脑虎39 分钟前
Python零基础衔接进阶知识点【详解版】
开发语言·人工智能·python
UnderTurrets1 小时前
A_Survey_on_3D_object_Affordance
pytorch·深度学习·计算机视觉·3d
koo3641 小时前
pytorch深度学习笔记13
pytorch·笔记·深度学习
黄焖鸡能干四碗1 小时前
智能制造工业大数据应用及探索方案(PPT文件)
大数据·运维·人工智能·制造·需求分析
世岩清上1 小时前
乡村振兴主题展厅本土化材料运用与地域文化施工表达
大数据·人工智能·乡村振兴·展厅
工藤学编程1 小时前
零基础学AI大模型之LangChain智能体执行引擎AgentExecutor
人工智能·langchain