使用开源 Whisper 视频转文字

Whisper 是 OpenAI 开源的语音到文字的模型, 支持多语言,Whisper 模型是基于 Transformer 架构,音频输入、文字输出,具体架构如下图。

Whisper 支持多种参数,模型的文档中说中等尺寸的模型不支持多语言,我测试的结果是支持中文的。

不同模型的下载地址,测试我使用了 Medium 和 Large 尺寸,模型文件已经上传,链接在文末。

复制代码
_MODELS = {
    "tiny.en": "https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt",
    "tiny": "https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt",
    "base.en": "https://openaipublic.azureedge.net/main/whisper/models/25a8566e1d0c1e2231d1c762132cd20e0f96a85d16145c3a00adf5d1ac670ead/base.en.pt",
    "base": "https://openaipublic.azureedge.net/main/whisper/models/ed3a0b6b1c0edf879ad9b11b1af5a0e6ab5db9205f891f668f8b0e6c6326e34e/base.pt",
    "small.en": "https://openaipublic.azureedge.net/main/whisper/models/f953ad0fd29cacd07d5a9eda5624af0f6bcf2258be67c92b79389873d91e0872/small.en.pt",
    "small": "https://openaipublic.azureedge.net/main/whisper/models/9ecf779972d90ba49c06d968637d720dd632c55bbf19d441fb42bf17a411e794/small.pt",
    "medium.en": "https://openaipublic.azureedge.net/main/whisper/models/d7440d1dc186f76616474e0ff0b3b6b879abc9d1a4926b7adfa41db2d497ab4f/medium.en.pt",
    "medium": "https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt",
    "large-v1": "https://openaipublic.azureedge.net/main/whisper/models/e4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a/large-v1.pt",
    "large-v2": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",
    "large-v3": "https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt",
    "large": "https://openaipublic.azureedge.net/main/whisper/models/e5b1a55b89c1367dacf97e3e19bfd829a01529dbfdeefa8caeb59b3f1b81dadb/large-v3.pt",
}

mp3 转文字

本文将从 mp4 中提取音频 mp3,并将 mp3 转为文字,运行环境为 ModelScope 容器镜像

mp4 中提取 mp3

通过 ffmpeg 提取 mp3。

复制代码
ffmpeg -i ~/a.mp4 ~/a.mp3
whisper

通过 whisper 转换音频至文字

复制代码
#安装依赖

pip install -U openai-whisper

# 加载模型
import whisper
model = whisper.load_model("medium", download_root="/notebook/whisper")

## 转换音频
result = model.transcribe("a.mp3", language="zh")
print(result["text"])

这里我们看到一明显的问题,第一是繁体、第二是没有标点符号。通过添加提示词来解决,Whisper 的提示词不是起到指令的作用,这个提示词是要告诉模型怎么对音频转换出来的内容做处理,针对上面的两个问题,我们的提示词要指定为简体并添加标点符号。

复制代码
model.transcribe("a.mp3",  language="zh", initial_prompt="更有网友表示,澳门葡记并未在澳门开设门店,同时其加工生产商为珠海葡记食品有限公司,除了品牌名称外似乎与澳门并无直接关联.跨地区注册、内地贴牌代工的模式几乎与导致小杨哥售后口碑崩盘的美诚月饼一致,引发大量关注.")

提示词,随便引用网上的一段新闻,结果虽然不是那么准确,但是足够用了。

总结

Whisper 音频转文字,meduim 尺寸模型的效果就可以满足大部分需求了,如果音频文件比较大,需要分段处理,例如 10 秒一个分段。

模型文件已经上传 ModelScope,有需要的同学可以下载。

https://www.modelscope.cn/models/model1001/whisper/files

相关推荐
追风哥哥1 小时前
transformer 注意力机制解析
人工智能·深度学习·神经网络·机器学习·语言模型·chatgpt·transformer
xingyuzhisuan1 小时前
4090部署DeepSeek-V3:CPU卸载层数实测指南
运维·深度学习·gpu算力
博士僧小星1 小时前
人工智能|大模型——模型——大模型蒸馏详解(定义/原理/关键技术/落地)
人工智能·深度学习·机器学习·知识蒸馏·模型蒸馏
AI医影跨模态组学1 小时前
Cancer Lett(IF=10.1)北京大学第一医院杨尹默等团队:基于深度学习的病理组学特征可独立于CA19-9预测胰腺导管腺癌的生存与复发
人工智能·深度学习
古希腊掌管代码的神THU2 小时前
【清华代码熊】RL后训练解析|Cursor Composer 2 技术报告
人工智能·深度学习·自然语言处理·composer
AI医影跨模态组学2 小时前
Cell Rep Med(IF=10.6)北京清华长庚医院李国新&云南省肿瘤医院放射科李振辉等团队:基于TME的深度学习模型预测胃癌治疗反应
人工智能·深度学习·医学·医学影像·医学科研
XHW___0012 小时前
鸿蒙音频通话应用后台保活与音频连续播放方案
华为·音视频·harmonyos
这张生成的图像能检测吗3 小时前
(论文速读)基于混合学习的边缘计算物联网系统操作视觉质量检测
人工智能·深度学习·物联网·智能制造·异常检测
龙腾AI白云3 小时前
深度学习实战:Transformer模型文本翻译应用
人工智能·深度学习
美狐美颜SDK开放平台3 小时前
直播美颜SDK选型避坑指南:功能与性能对比
人工智能·音视频·美颜sdk·直播美颜sdk·短视频美颜sdk