Whisper 通过 mp3输出中文

像剪映和一些软件一样,识别字幕,输出文本,用Whisper。

Whisper是openai推出的,一种开源语音识别模型,能够识别很多种语言,然后将音频转成文字

python实现。


不懂代码的,用图形界面buzzconst-me/whisper


python记住一定要安装3.9 - 3.11 之间,我用到3.9.9


命令是这样:whisper --language Chinese --model large audio.mp3

就可以输出了。


也可以写代码:

代码如下:

py 复制代码
import os.path
import whisper

model = whisper.load_model("turbo")

# load audio and pad/trim it to fit 30 seconds
audio_path = os.path.join(os.path.dirname(__file__), "1.mp3")
audio = whisper.load_audio(audio_path)
audio = whisper.pad_or_trim(audio)

# make log-Mel spectrogram and move to the same device as the model
mel = whisper.log_mel_spectrogram(audio, n_mels=model.dims.n_mels).to(model.device)

# detect the spoken language
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}") # 检测是哪国语言

# decode the audio
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)

# print the recognized text
print(result.text) # 输出结果
相关推荐
无限大626 分钟前
为什么"数据压缩"能减小文件大小?——从冗余数据到高效编码
后端
用户7294294322326 分钟前
kubernetes/k8s全栈技术讲解+企业级实战项目课程
后端
用户7294294322328 分钟前
基于Dubbo的分布式系统架构+事务解决方案
后端
程序员鱼皮30 分钟前
什么是 RESTful API?凭什么能流行 20 多年?
前端·后端·程序员
+VX:Fegn089530 分钟前
计算机毕业设计|基于springboot + vue健身房管理系统(源码+数据库+文档)
数据库·vue.js·spring boot·后端·课程设计
用户7294294322331 分钟前
Shiro框架工作原理与实践精讲
后端
用户7294294322333 分钟前
uni-app实战在线教育类app开发
后端
用户7294294322336 分钟前
数据中心虚拟化之KVM虚拟化基本部署视频课程
后端
幌才_loong44 分钟前
深入解析 C# async/await 执行原理:从语法糖到状态机
后端·.net