【小沐学AI】Python实现语音识别(Whisper-Web)

文章目录

1、简介

https://openai.com/index/whisper/

Whisper 是一种自动语音识别 (ASR) 系统,经过 680,000 小时的多语言和多任务监督数据的训练,从网络上收集。我们表明,使用如此庞大而多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及从这些语言翻译成英语。我们正在开源模型和推理代码,作为构建有用应用程序和进一步研究鲁棒语音处理的基础。

Whisper 架构是一种简单的端到端方法,作为编码器-解码器 Transformer 实现。输入音频被分割成 30 秒的块,转换为对数梅尔频谱图,然后传递到编码器中。解码器经过训练以预测相应的文本标题,并与特殊标记混合,这些标记指示单个模型执行语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。

模型如下:


2、下载

2.1 openai-whisper

https://github.com/openai/whisper

通过python的pip工具安装whisper库如下:

bash 复制代码
pip install -U openai-whisper
pip install git+https://github.com/openai/whisper.git
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

测试whisper命令行工具如下:

bash 复制代码
whisper --help
bash 复制代码
# whisper audio.flac audio.mp3 audio.wav --model medium
whisper test.mp3 --model tiny
bash 复制代码
whisper --language Chinese --model tiny test.mp3
# traditional
whisper --language Chinese --model tiny test.mp3 --initial_prompt "以下是普通話的句子。"  
# simplified
whisper --language Chinese --model tiny test.mp3  --initial_prompt "以下是普通话的句子。"  


2.2 whisper-web

https://github.com/xenova/whisper-web

下载代码如下:

bash 复制代码
git clone https://github.com/xenova/whisper-web.git
bash 复制代码
cd whisper-web
npm install

报错了。但是在使用npm/yarn对sharp安装时经常会出现安装失败的问题,主要原因是安装源的问题所以我们可以选择为包管理器换源或者手动下载并安装。

用镜像地址(仅设置sharp):

bash 复制代码
npm config set sharp_binary_host "https://npmmirror.com/mirrors/sharp"
npm config set sharp_libvips_binary_host "https://npmmirror.com/mirrors/sharp-libvips"

推荐将npm源都修改为cnpm:

bash 复制代码
npm config set registry https://registry.npmmirror.com

安装成功!运行Whisper-Web服务如下:

bash 复制代码
npm run dev

浏览器运行如下:

设置模型参数:

点击中间按钮,选择一个本地声音文件,进行识别。

开始识别中。

语音识别成功如下:


第三届机器人、人工智能与智能控制国际会议(RAIIC 2024)将于2024年7月5-7日中国·绵阳举行。 RAIIC 2024是汇聚业界和学术界的顶级论坛,会议将邀请国内外著名专家就以传播机器人、人工智能与智能控制领域的技术进步、研究成果和应用做专题报告,同时进行学术交流。诚邀国内外相关高校和科研院所的科研人员、企业工程技术人员等参加会议。
大会网站:更多会议详情
时间地点:中国-绵阳|2024年7月5-7日


由河南省科学院、河南大学、郑州航空工业管理学院主办,河南省产学研人工智能研究院、河南大学人工智能学院、郑州航空工业管理学院计算机学院承办的第四届人工智能,大数据与算法国际学术会议 (CAIBDA 2024)将于2024年7月5-7日于中国郑州隆重举行。CAIBDA 2024致力于为人工智能,大数据与算法等相关领域的学者,工程师和从业人员提供一个分享最新研究成果的平台。
大会网站:更多会议详情
时间地点:中国-郑州|2024年7月5-7日


2024第四届人工智能、自动化与高性能计算国际会议(AIAHPC 2024)将于2024年7月19-21日在中国·珠海召开。
大会网站:更多会议详情
时间地点:中国珠海-中山大学珠海校区|2024年7月19-21日

结语

如果您觉得该方法或代码有一点点用处,可以给作者点个赞,或打赏杯咖啡;╮( ̄▽ ̄)╭
如果您感觉方法或代码不咋地//(ㄒoㄒ)//,就在评论处留言,作者继续改进;o_O???
如果您需要相关功能的代码定制化开发,可以留言私信作者;(✿◡‿◡)
感谢各位大佬童鞋们的支持!( ´ ▽´ )ノ ( ´ ▽´)っ!!!

相关推荐
kejicaijinghui3 分钟前
解码数智升级良方:中国一拖、中原传媒、神火股份等企业数字化实践分析
人工智能
@我们的天空5 分钟前
【深度学习】python之人工智能应用篇--跨模态生成技术
人工智能·pytorch·python·深度学习·机器学习·tensorflow·transformer
会撸代码的懒羊羊7 分钟前
各维度卷积神经网络内容收录
人工智能·深度学习·神经网络·自然语言处理·cnn
金木讲编程22 分钟前
注意力机制在大语言模型中的应用
人工智能·语言模型·自然语言处理
一尘之中24 分钟前
AudioLM音频生成模型
人工智能·audiolm
爱睡懒觉的焦糖玛奇朵25 分钟前
【人工智能学习之图像操作(一)】
人工智能·opencv·学习
托马斯-木26 分钟前
【python学习】如何在一个python文件中调用另一个python文件的函数
开发语言·python·学习
今日信息差32 分钟前
6月29日,每日信息差
java·大数据·人工智能·ffmpeg·tomcat
go2coding1 小时前
谷歌发布两款新Gemma 2大语言模型;阿里云开源Qwen2-72B模型荣登榜首
人工智能·阿里云·语言模型
@我们的天空1 小时前
【机器学习】python之人工智能应用篇——3D生成技术
人工智能·python·深度学习·神经网络·机器学习·3d