本地部署_语音识别工具_Whisper

1 简介

Whisper 是 OpenAI 的语音识别系统(几乎是最先进),它是免费的开源模型,可供本地部署。

2 docker

https://hub.docker.com/r/onerahmet/openai-whisper-asr-webservice

3 github

https://github.com/ahmetoner/whisper-asr-webservice

4 运行

复制代码
nvidia-docker run -d --gpus all -p 9000:9000 -e ASR_MODEL=base -e ASR_ENGINE=openai_whisper onerahmet/openai-whisper-asr-webservice:latest-gpu

image 大小:11.5G

运行后,即可在9000端口通过swagger调用,我先用手机录了一些简单的中文,识别效果还不错,除了第一次调用时可能是下载和加载模型时间比较长,后面再调用速度就很快。

又用它识别了一个25分钟的mp3(约27M),是一位小哥哥B站视频对应的音频文件,识别时间约为不到1分钟,使用GPU内存占用在1G之内,尽管有一小部分乱码和一些重复,但整体效果不错。

我觉得速度和效果都相当美丽,绝对可以作为一些收费产品的平替了~~

5 注意事项

  • 上传的音频文件使用时尽量不要用中文文件名
相关推荐
ai_xiaogui12 分钟前
AIStarter用户与创作者模式详解:一键管理Stable Diffusion项目!
人工智能·stable diffusion·一键发布ai项目·熊哥aistarter教程·开发者必备aistarter
止步前行34 分钟前
Cursor配置DeepSeek调用MCP服务实现任务自动化
人工智能·cursor·deepseek·mcp
阿星AI工作室39 分钟前
AI产品经理必看的大模型微调劝退指南丨实战笔记
人工智能·产品经理·ai编程
Damon小智39 分钟前
蚂蚁百宝箱实战:艺考生文化课助手的设计与搭建
人工智能·mcp
辣么大39 分钟前
03 环境:树莓派环境配置
人工智能
程序员NEO1 小时前
Spring AI 骚操作:让大模型乖乖听话,直接返回 Java 对象!
人工智能·后端
金智维科技官方1 小时前
利用AI Agent实现精准的数据分析
人工智能·数据挖掘·数据分析
星辰大海的精灵1 小时前
FastAPI开发AI应用,多厂商模型使用指南
人工智能·后端·架构
VXHAruanjian8881 小时前
CosyVoice2.0整合包:免费一键启动,释放语音克隆的创意潜能
人工智能
慕婉03071 小时前
Tensor自动微分
人工智能·pytorch·python