asr

Ephemeroptera1 个月前
算法·数据挖掘·聚类·asr
聚类算法的代码解析与实现本文将对一个基于未归一化拉普拉斯矩阵的谱聚类算法进行详细解析。该算法的实现源自 SpeechBrain 项目,适用于语音片段的聚类,例如语音分离、说话人识别等任务。我们将逐步分析代码的每个部分,并解释其背后的数学原理。
Eric.Lee20211 个月前
算法·whisper·语音识别·asr·语言转文字
whisper 实现语音识别 ASR - python 实现语音识别(Speech Recognition),同时称为自动语音识别(英语:Automatic Speech Recognition, ASR),将语音音频转换为文字的技术。
残诗2 个月前
机器人·语音识别·asr·大模块
制作一个能对话能跳舞的otto机器人OTTO机器人是一个开源外壳,硬件和软件的桌面机器人项目,非常适合新手研究和拓展。记住,他是一个能移动有表情能声音的机器人。
NLP工程化4 个月前
tts·asr·dify
Dify中语音和文字间转换问题的一种暂时注释方式本文主要解释了Dify中语音和文字间转换可能会遇到的问题,并给出了一种暂时注释的解决方案。本地部署文本转语音时,如果遇到如下问题,安装ffmpeg即可。但是如果安装后,重启系统还是遇到这个问题该如何办?
伊织code4 个月前
python·whisper·openai·asr·语音·vad·whisperx
WhisperXWhisperX:具有字级时间戳的自动语音识别(和分类)该存储库提供快速语音识别(70倍实时与big-v2)与字级时间戳和说话人分类。
loong_XL4 个月前
asr·字幕·实时字幕
google、windows自带语音识别中英文等实时字幕使用1)google浏览器自带 实时字幕 设置里可以设置: 有视频声音播放会弹出黑色文本框下载其他语言包-比如中文:
HuggingFace6 个月前
asr
使用 Hugging Face 推理终端搭建强大的“语音识别 + 说话人分割 + 投机解码”工作流Whisper 是当前最先进的开源语音识别模型之一,毫无疑问,也是应用最广泛的模型。如果你想部署 Whisper 模型,Hugging Face 推理终端 能够让你开箱即用地轻松部署任何 Whisper 模型。但是,如果你还想叠加其它功能,如用于分辨不同说话人的说话人分割,或用于投机解码的辅助生成,事情就有点麻烦了。因为此时你需要将 Whisper 和其他模型结合起来,但对外仍只发布一个 API。
赖皮猫7 个月前
大模型·语音识别·asr
python实现ASR能力实践本文介绍了一个python实现ASR(语音识别)能力的基础实现,供有需要的人参考。使用python的三方库,将视频中的语音导出为 mp3格式。
learnrocks1008 个月前
语音识别·asr·三音素·上下文建模·声学建模·gmm-hmm·上下文音素建模
【语音识别】声学建模中基于树的状态绑定单音素HMM模型不能很好的应对自然说话人发音时的渐变过程,比如从一个音素转换到另一个音素时会存在协同发音现象。因此语音识别的先驱者提出了上下文建模概念,即使用中心音素(单因素)和前后两个音素组成三音素对每一个发音进行建模。三因素和单因素一样都是使用三状态的HMM,只是将原来的单因素的模型扩充了。比如原先用40个单因素进行建模,使用三因素时,理论上需要40x40x40个音素,总共40x40x40x3个状态。这样盲目扩充造成了参数过多,训练数据不足的问题。因此需要将相似的三因素进行合并。一种高效的方法是构造二
会发paper的学渣8 个月前
asr
ASR工业化语音模型总结1、wenet模型:WeNet语音识别实战-CSDN博客git地址:GitHub - wenet-e2e/wenet: Production First and Production Ready End-to-End Speech Recognition Toolkit
Luke Ewin8 个月前
linux·运维·whisper·语音识别·asr·私有化部署语音识别·whisper jax
Linux安装Whisper-Jax博客 如需私有化部署欢迎咨询,包含whisper,whisper jax,faster whisper。
ToTensor8 个月前
人工智能·pytorch·深度学习·asr
Fastwhisper + Pyannote 实现 ASR + 说话者识别最近在研究ASR相关的业务,也是调研了不少模型,踩了不少坑,ASR这块,目前中文普通话效果最好的应该是阿里的modelscope上的中文模型了,英文的话,还是非whisper莫属了,而且whisper很变态,粤语效果也还不错,因此,如果实际业务中需要涉及到不同的语言,还是更推荐whisper多一点
仙魁XAN10 个月前
microsoft·语音识别·azure·asr·连续语音识别
Unity 工具 之 Azure 微软连续语音识别ASR的简单整理目录Unity 工具 之 Azure 微软连续语音识别ASR的简单整理一、简单介绍二、实现原理三、注意实现
Luke Ewin1 年前
人工智能·python·whisper·语音识别·asr·faster-whisper·开源语音识别
开源语音识别faster-whisper部署教程源码地址模型下载地址:下载cuBLAS and cuDNN在conda环境中创建python运行环境激活虚拟环境
澳鹏Appen1 年前
人工智能·训练数据·asr
什么是自动语音识别?在人工智能发展和全球疫情的双重作用下,企业加强了与客户的线上沟通。企业越发依赖于虚拟助手、聊天机器人以及其他的语音技术,以实现与客户的高效互动。这几类人工智能,都是依赖于自动语音识别技术,简称为ASR。ASR涉及到将语音转换为文本,促使计算机理解人类语言并与人类对话。 ASR的使用量正在与日俱增。在Deepgram与Opus Research合作进行的一项最新调查中,向来自北美洲多个行业的400名决策者调查了其公司的ASR使用情况。99%的调查对象表示,他们都有在使用ASR,主要以手机应用中的语音助手为主