轻松识别几个小时的长音视频文件

前言

之前的文章绍一个准确率非常高的语音识别框架,但那个只能识别实时的短音频,如果想要识别一个非常长的音频,几十分钟,甚至几个小时,那之前的那个是做不到的所以就有了本文。本文介绍搭建一个长语音识别服务,可以把任意长度的音视频到识别结果。

启动Docker服务

需要把整个文件夹上传到服务器上,并在该目录执行以下命令:

编译Docker容器:

shell 复制代码
sudo docker build -t offline_asr .

修改权限:

shell 复制代码
sudo chmod +x run_server.sh

在项目根目录执行启动命令:

shell 复制代码
sudo docker run -p 10095:10095 -itd --privileged=true --name offline_asr -v $PWD/:/workspace/websocket offline_asr

重新启动服务,如果之前因为一些原因关闭了docker服务,可以执行下面命令重新启动,需要开机自启动的,把下面命令复制到开机自启动脚本中/etc/rc.local

shell 复制代码
sudo docker start offline_asr

测试服务

使用上面服务之后,可以执行下面命令测试一下服务是否正常启动可用。

shell 复制代码
python asr_client.py --wav_path=test.wav

搭建HTTP服务

上面搭建的是websocket的服务,使用起来非常不方便,所以下面提供了一个Websockt转http服务的程序,并且提供了网页可以上传音视频获取识别结果,启动HTTP服务命令如下。

shell 复制代码
python asr_server.py

访问http://192.168.0.100:6060打开页面,可以上传WAV、MP3、MP4等多种格式,同时也支持录制识别。

扫码入知识星球,搜索【FunASR语音识别长音频视频服务】获取源码

相关推荐
蜘蛛小助理几秒前
HR 效率神器:零代码搭建招聘 + 考勤 + 薪酬一体化管理系统
人工智能·ai·人事管理·hr·多维表格·蜘蛛表格
数智化管理手记5 分钟前
设备总停机?找准根源+TPM核心逻辑,筑牢零故障基础
数据库·人工智能·低代码·制造
青山师19 分钟前
【AI热点资讯】5月10日AI热点:Cloudflare裁员1100人、Musk庭审第二周回顾、OpenAI发布Codex Chrome插件
前端·人工智能·chrome·ai·ai热点
长亭外的少年22 分钟前
从 Prompt 到工程体系:如何真正把 AI 用进软件开发
人工智能·prompt
zhangshuang-peta26 分钟前
MCP + OpenClaw:执行框架如何被“约束成系统”
数据库·人工智能·ai·ai agent·mcp·peta
zhangshuang-peta27 分钟前
MCP 的本质:不是调模型,而是限制 Agent 行为边界
人工智能·ai·ai agent·mcp·peta
苏州汇成元电子科技31 分钟前
为什么越来越多AI设备开始使用I-PEX 81463-100B-02-D 30Pin极细同轴线束?
人工智能·音视频·硬件工程·信号处理·材料工程
新知图书42 分钟前
用于 HR FAQ 场景的AI Agent原型演示
人工智能·langchain
许彰午1 小时前
# 从 RAG 到 Agent:社保智能客服的进化(下)——多模态与完
人工智能
agicall.com1 小时前
信电助 - 信创话务盒 UB-A-XC 型号功能列表
人工智能·语音识别