轻松识别几个小时的长音视频文件

前言

之前的文章绍一个准确率非常高的语音识别框架,但那个只能识别实时的短音频,如果想要识别一个非常长的音频,几十分钟,甚至几个小时,那之前的那个是做不到的所以就有了本文。本文介绍搭建一个长语音识别服务,可以把任意长度的音视频到识别结果。

启动Docker服务

需要把整个文件夹上传到服务器上,并在该目录执行以下命令:

编译Docker容器:

shell 复制代码
sudo docker build -t offline_asr .

修改权限:

shell 复制代码
sudo chmod +x run_server.sh

在项目根目录执行启动命令:

shell 复制代码
sudo docker run -p 10095:10095 -itd --privileged=true --name offline_asr -v $PWD/:/workspace/websocket offline_asr

重新启动服务,如果之前因为一些原因关闭了docker服务,可以执行下面命令重新启动,需要开机自启动的,把下面命令复制到开机自启动脚本中/etc/rc.local

shell 复制代码
sudo docker start offline_asr

测试服务

使用上面服务之后,可以执行下面命令测试一下服务是否正常启动可用。

shell 复制代码
python asr_client.py --wav_path=test.wav

搭建HTTP服务

上面搭建的是websocket的服务,使用起来非常不方便,所以下面提供了一个Websockt转http服务的程序,并且提供了网页可以上传音视频获取识别结果,启动HTTP服务命令如下。

shell 复制代码
python asr_server.py

访问http://192.168.0.100:6060打开页面,可以上传WAV、MP3、MP4等多种格式,同时也支持录制识别。

扫码入知识星球,搜索【FunASR语音识别长音频视频服务】获取源码

相关推荐
一招定胜负4 分钟前
OpenCV DNN 实战:快速实现实时性别年龄检测
人工智能·opencv·dnn
林深现海5 分钟前
【刘二大人】PyTorch深度学习实践笔记 —— 第二集:线性模型(凝练版)
pytorch·笔记·深度学习
dyxal5 分钟前
算子(Operator):深度学习的乐高积木
人工智能·深度学习
leiming67 分钟前
Qt视频监控系统开发实战:从视频捕获到照片管理
linux·数码相机·音视频
老百姓懂点AI8 分钟前
[数据工程] 告别脏数据:智能体来了(西南总部)AI调度官的自动化ETL清洗与AI agent指挥官的数据合成管线
人工智能·自动化·etl
Dingdangcat868 分钟前
【技术解析】TOOD-R101-FPN-MS-2x-COCO导弹目标检测模型实现与优化
人工智能·目标检测·计算机视觉
横木沉10 分钟前
Opencode启动时内置Bun段错误的解决笔记
人工智能·笔记·bun·vibecoding·opencode
码农三叔12 分钟前
(9-2-01)电源管理与能源系统:能耗分析与功率管理(1)步行能耗估计
人工智能·嵌入式硬件·机器人·人机交互·能源·人形机器人
SmartRadio16 分钟前
ESP32-S3对接豆包制作AI桌面数字收音机,桌面闹钟,桌面新闻播报器
人工智能·esp32·远程·虚拟键盘·虚拟鼠标
主机哥哥18 分钟前
阿里云OpenClaw极简部署教程,打造专属AI助手!
人工智能·阿里云·云计算