轻松识别几个小时的长音视频文件

前言

之前的文章绍一个准确率非常高的语音识别框架,但那个只能识别实时的短音频,如果想要识别一个非常长的音频,几十分钟,甚至几个小时,那之前的那个是做不到的所以就有了本文。本文介绍搭建一个长语音识别服务,可以把任意长度的音视频到识别结果。

启动Docker服务

需要把整个文件夹上传到服务器上,并在该目录执行以下命令:

编译Docker容器:

shell 复制代码
sudo docker build -t offline_asr .

修改权限:

shell 复制代码
sudo chmod +x run_server.sh

在项目根目录执行启动命令:

shell 复制代码
sudo docker run -p 10095:10095 -itd --privileged=true --name offline_asr -v $PWD/:/workspace/websocket offline_asr

重新启动服务,如果之前因为一些原因关闭了docker服务,可以执行下面命令重新启动,需要开机自启动的,把下面命令复制到开机自启动脚本中/etc/rc.local

shell 复制代码
sudo docker start offline_asr

测试服务

使用上面服务之后,可以执行下面命令测试一下服务是否正常启动可用。

shell 复制代码
python asr_client.py --wav_path=test.wav

搭建HTTP服务

上面搭建的是websocket的服务,使用起来非常不方便,所以下面提供了一个Websockt转http服务的程序,并且提供了网页可以上传音视频获取识别结果,启动HTTP服务命令如下。

shell 复制代码
python asr_server.py

访问http://192.168.0.100:6060打开页面,可以上传WAV、MP3、MP4等多种格式,同时也支持录制识别。

扫码入知识星球,搜索【FunASR语音识别长音频视频服务】获取源码

相关推荐
前沿科技说i4 小时前
2026年AI大模型API中转站:主流服务商性能与成本
人工智能
黄啊码6 小时前
【黄啊码】程序员真正该担心的,不是 AI 会写代码
人工智能
weixin_468466857 小时前
Ava 2.0 智能应用场景落地指南
人工智能·自然语言处理·大模型·智能交互·ava
John_ToDebug7 小时前
MCP 深度解析:大模型的“万能插头”
人工智能·经验分享·ai
浦信仿真大讲堂7 小时前
CST 仿真软件与 AI 融合的工程应用实战
人工智能·仿真软件·达索仿真·达索软件
mit6.8247 小时前
A Software Engineer‘s Apology | CODA
人工智能
段一凡-华北理工大学7 小时前
2026 高炉炼铁智能化技术全景与演进路径~系列文章11:演进路径与行业未来
大数据·网络·人工智能·算法·工业智能体·高炉炼铁智能化
小脑斧1237 小时前
AI技能化落地:从对话式大模型到可生产、可复用的AI工程体系
人工智能·skills·openclaw·hermes·marvis
西陵7 小时前
Agent 为什么会陷入 Doom Loop?OpenClaw 的破解之道
前端·人工智能·ai编程
飞哥数智坊7 小时前
动动嘴皮子就把事干了,Mic Air + TRAE SOLO 让我越来越懒
人工智能