asr

残诗7 天前
机器人·语音识别·asr·大模块
制作一个能对话能跳舞的otto机器人OTTO机器人是一个开源外壳,硬件和软件的桌面机器人项目,非常适合新手研究和拓展。记住,他是一个能移动有表情能声音的机器人。
NLP工程化2 个月前
tts·asr·dify
Dify中语音和文字间转换问题的一种暂时注释方式本文主要解释了Dify中语音和文字间转换可能会遇到的问题,并给出了一种暂时注释的解决方案。本地部署文本转语音时,如果遇到如下问题,安装ffmpeg即可。但是如果安装后,重启系统还是遇到这个问题该如何办?
伊织code2 个月前
python·whisper·openai·asr·语音·vad·whisperx
WhisperXWhisperX:具有字级时间戳的自动语音识别(和分类)该存储库提供快速语音识别(70倍实时与big-v2)与字级时间戳和说话人分类。
loong_XL2 个月前
asr·字幕·实时字幕
google、windows自带语音识别中英文等实时字幕使用1)google浏览器自带 实时字幕 设置里可以设置: 有视频声音播放会弹出黑色文本框下载其他语言包-比如中文:
HuggingFace4 个月前
asr
使用 Hugging Face 推理终端搭建强大的“语音识别 + 说话人分割 + 投机解码”工作流Whisper 是当前最先进的开源语音识别模型之一,毫无疑问,也是应用最广泛的模型。如果你想部署 Whisper 模型,Hugging Face 推理终端 能够让你开箱即用地轻松部署任何 Whisper 模型。但是,如果你还想叠加其它功能,如用于分辨不同说话人的说话人分割,或用于投机解码的辅助生成,事情就有点麻烦了。因为此时你需要将 Whisper 和其他模型结合起来,但对外仍只发布一个 API。
赖皮猫5 个月前
大模型·语音识别·asr
python实现ASR能力实践本文介绍了一个python实现ASR(语音识别)能力的基础实现,供有需要的人参考。使用python的三方库,将视频中的语音导出为 mp3格式。
learnrocks1006 个月前
语音识别·asr·三音素·上下文建模·声学建模·gmm-hmm·上下文音素建模
【语音识别】声学建模中基于树的状态绑定单音素HMM模型不能很好的应对自然说话人发音时的渐变过程,比如从一个音素转换到另一个音素时会存在协同发音现象。因此语音识别的先驱者提出了上下文建模概念,即使用中心音素(单因素)和前后两个音素组成三音素对每一个发音进行建模。三因素和单因素一样都是使用三状态的HMM,只是将原来的单因素的模型扩充了。比如原先用40个单因素进行建模,使用三因素时,理论上需要40x40x40个音素,总共40x40x40x3个状态。这样盲目扩充造成了参数过多,训练数据不足的问题。因此需要将相似的三因素进行合并。一种高效的方法是构造二
会发paper的学渣6 个月前
asr
ASR工业化语音模型总结1、wenet模型:WeNet语音识别实战-CSDN博客git地址:GitHub - wenet-e2e/wenet: Production First and Production Ready End-to-End Speech Recognition Toolkit
Luke Ewin7 个月前
linux·运维·whisper·语音识别·asr·私有化部署语音识别·whisper jax
Linux安装Whisper-Jax博客 如需私有化部署欢迎咨询,包含whisper,whisper jax,faster whisper。
ToTensor7 个月前
人工智能·pytorch·深度学习·asr
Fastwhisper + Pyannote 实现 ASR + 说话者识别最近在研究ASR相关的业务,也是调研了不少模型,踩了不少坑,ASR这块,目前中文普通话效果最好的应该是阿里的modelscope上的中文模型了,英文的话,还是非whisper莫属了,而且whisper很变态,粤语效果也还不错,因此,如果实际业务中需要涉及到不同的语言,还是更推荐whisper多一点
仙魁XAN9 个月前
microsoft·语音识别·azure·asr·连续语音识别
Unity 工具 之 Azure 微软连续语音识别ASR的简单整理目录Unity 工具 之 Azure 微软连续语音识别ASR的简单整理一、简单介绍二、实现原理三、注意实现
Luke Ewin10 个月前
人工智能·python·whisper·语音识别·asr·faster-whisper·开源语音识别
开源语音识别faster-whisper部署教程源码地址模型下载地址:下载cuBLAS and cuDNN在conda环境中创建python运行环境激活虚拟环境
澳鹏Appen1 年前
人工智能·训练数据·asr
什么是自动语音识别?在人工智能发展和全球疫情的双重作用下,企业加强了与客户的线上沟通。企业越发依赖于虚拟助手、聊天机器人以及其他的语音技术,以实现与客户的高效互动。这几类人工智能,都是依赖于自动语音识别技术,简称为ASR。ASR涉及到将语音转换为文本,促使计算机理解人类语言并与人类对话。 ASR的使用量正在与日俱增。在Deepgram与Opus Research合作进行的一项最新调查中,向来自北美洲多个行业的400名决策者调查了其公司的ASR使用情况。99%的调查对象表示,他们都有在使用ASR,主要以手机应用中的语音助手为主