本地部署_语音识别工具_Whisper

1 简介

Whisper 是 OpenAI 的语音识别系统(几乎是最先进),它是免费的开源模型,可供本地部署。

2 docker

https://hub.docker.com/r/onerahmet/openai-whisper-asr-webservice

3 github

https://github.com/ahmetoner/whisper-asr-webservice

4 运行

复制代码
nvidia-docker run -d --gpus all -p 9000:9000 -e ASR_MODEL=base -e ASR_ENGINE=openai_whisper onerahmet/openai-whisper-asr-webservice:latest-gpu

image 大小:11.5G

运行后,即可在9000端口通过swagger调用,我先用手机录了一些简单的中文,识别效果还不错,除了第一次调用时可能是下载和加载模型时间比较长,后面再调用速度就很快。

又用它识别了一个25分钟的mp3(约27M),是一位小哥哥B站视频对应的音频文件,识别时间约为不到1分钟,使用GPU内存占用在1G之内,尽管有一小部分乱码和一些重复,但整体效果不错。

我觉得速度和效果都相当美丽,绝对可以作为一些收费产品的平替了~~

5 注意事项

  • 上传的音频文件使用时尽量不要用中文文件名
相关推荐
yiyu071616 小时前
3分钟搞懂深度学习AI:自我进化的最简五步法
人工智能·深度学习
浪浪山_大橙子18 小时前
OpenClaw 十分钟快速,安装与接入完全指南 - 推荐使用trae 官方 skills 安装
前端·人工智能
火山引擎开发者社区18 小时前
OpenClaw 快速上手:把云手机变成你的 7×24 小时 AI 手机助手
人工智能
Qlly18 小时前
DDD 架构为什么适合 MCP Server 开发?
人工智能·后端·架构
Lee川18 小时前
从零构建智能对话系统:AI Agent 实战指南
人工智能
冬奇Lab19 小时前
一天一个开源项目(第43篇):Star-Office-UI - 像素风格的 AI 办公室看板,让 AI 助手的工作状态可视化
人工智能·开源·资讯
风象南19 小时前
纯文本模型竟然也能直接“画图”,而且还很好用
前端·人工智能·后端
IT_陈寒19 小时前
Vite vs Webpack:5个让你的开发效率翻倍的实战对比
前端·人工智能·后端
摆烂工程师21 小时前
GPT-5.4 发布!再看 OpenClaw:AI 真正危险的,不是更会聊天,而是开始自己“干活”
人工智能·openai·ai编程
飞哥数智坊1 天前
分享被迫变直播:AI·Spring养虾记就这样上线了
人工智能