本地部署，Whisper: 开源语音识别模型

GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak SupervisionRobust Speech Recognition via Large-Scale Weak Supervision - openai/whisperhttps://github.com/openai/whisper

简介

Whisper 是一个由 OpenAI 训练的强大的开源语音识别模型，它可以将语音转换为文本。Whisper 支持多种语言和语音，并且能够识别不同口音和背景噪音。它在各种语音识别任务中表现出色，包括语音转文本、语音翻译和语音命令识别。

特点

多语言支持： Whisper 支持多种语言，包括英语、中文、法语、德语、西班牙语等。
高精度： Whisper 在各种语音识别任务中表现出高精度，能够准确地将语音转换为文本。
鲁棒性： Whisper 能够识别不同口音和背景噪音，即使在嘈杂的环境中也能保持较高的识别精度。
开源： Whisper 是一个开源模型，这意味着任何人都可以免费使用和修改它。

应用

Whisper 可以应用于各种场景，例如：

语音转文本： 将语音转换为文本，例如将会议录音转换为文字记录。
语音翻译： 将一种语言的语音转换为另一种语言的文本。
语音命令识别： 识别语音命令，例如控制智能家居设备。
语音搜索： 通过语音搜索信息。

使用方法

模型大小

命令行安装

Whisper 可以通过 Python 库使用，以下是使用 Whisper 的示例代码：

复制代码

import whisper

# 加载 Whisper 模型
model = whisper.load_model("base")

# 识别音频文件
audio = whisper.load_audio("audio.wav")

# 将音频转换为文本
result = model.transcribe(audio)

# 打印识别结果
print(result["text"])

UI docker安装

复制代码

docker run -it -p 7860:7860 --platform=linux/amd64 
	registry.hf.space/aadnk-faster-whisper-webui:latest python app.py

运行界面

可以看到支持，音频文件，录音文件，以及视频地址的方式。

总结

Whisper 是一个强大且易于使用的开源语音识别模型，它可以应用于各种场景。其多语言支持、高精度和鲁棒性使其成为语音识别任务的理想选择。