语音识别

shayudiandian3 小时前
人工智能·深度学习·语音识别
用深度学习实现语音识别系统语音识别系统的核心是大量高质量的语音数据及其对应的文本标注。常见数据集包括LibriSpeech、TIMIT或Common Voice。原始音频通常为WAV格式,采样率16kHz,单声道。预处理步骤包括分帧(帧长25ms,帧移10ms)、加窗(汉明窗)、傅里叶变换提取频谱特征(如MFCCs或FBANK)。标准化操作需对特征进行均值方差归一化。
IT·陈寒17 小时前
人工智能·语音识别·智能音箱
小智 AI 智能音箱 MCP 开发实战:从环境搭建到自定义语音技能完整指南过去的智能音箱,大多只是“播放音乐 + 开灯关灯”的语音工具,而小智 AI 智能音箱的 MCP 能力,让它变成了一个真正可扩展的开发平台。
向阳逐梦18 小时前
人工智能·语音识别
电子烟的4种屏幕驱动集成语音方案介绍目前电子烟在全球市场的表现非常不错,很多国产电子烟厂家都有非常不错的产品,而屏幕驱动方案是电子烟智能化的重要组成部分,今天就给大家带来电子烟的4种主流屏幕驱动方案(含2025年最新版方案)。
Luke Ewin21 小时前
语音识别·asr·实时语音识别·通话语音质检
记录训练呼叫中心专有ASR模型过程之前有做呼叫中心系统的公司找到过我,询问我如何提高语音识别模型在通话录音的转写准确率,我知道市面上开源的模型,一般都是使用通用数据训练的模型,对于电话场景就识别的不怎么准确,特别是通话中一般存储的录音为8k采样率的音频,并且通常有很大部分音频存在很严重的噪音,这也是导致最终识别不准的原因之一。因此,这里使用了大量的通话录音来训练,并且加入了其它更准确的数据集进行训练,有超过200小时的数据集,主要包含弱标注10万条数据,和强标注6万条数据,进行混合训练。 关于本文章的更详细内容可点击这里。 视频可在浏览器
提娜米苏1 天前
论文阅读·深度学习·计算机视觉·语音识别·知识蒸馏·唇语识别
[论文笔记] ASR is all you need: Cross-modal distillation for lip reading (2020)原文标题:ASR is all you need: Cross-modal distillation for lip reading 发表年份:2020 核心思想:利用强大的 ASR(语音识别)模型作为教师,通过跨模态蒸馏,利用无标签数据训练 VSR(视觉语音识别/唇读)模型。
gaetoneai2 天前
人工智能·语音识别
当OpenAI内部命名乱成“GPT-5.1a-beta-v3-rev2”,Gateone.ai 已为你筑起一道“多模态智能的稳定防线”。当OpenAI内部命名乱成“GPT-5.1a-beta-v3-rev2”,Gateone.ai 已为你筑起一道“多模态智能的稳定防线”。
360智汇云2 天前
人工智能·语音识别·xcode
智汇云API市场:大模型流式语音识别在人与人的交流以及传播知识过程中,大约70%的信息是来自于语音。未来,语音识别将必然成为智能生活里重要的一部分,它可以为个人语音助手、语音输入、智能音箱等应用场景提供相关必不可少的技术基础,而且,这还将会成为未来一种新的人机交互方式。
智算菩萨2 天前
人工智能·自然语言处理·语音识别
大规模语音与语音对话模型:从 ASR/TTS 到情感与意图理解目录1 引言2 相关工作综述2.1 端到端 ASR 与自监督语音表示2.2 神经 TTS:从 Tacotron 到 VITS 与语音基础模型
修一呀3 天前
人工智能·语音识别
【声音分离】多人语音分离方案:ClearVoice + MossFormer2_SS_16K 实战教程在智能语音处理领域,“双人同时说话”的重叠语音分离一直是一个高难度问题。很多企业应用,如智能客服、会议纪要、多麦克风设备,都需要把混在一条音轨里的两个人声音拆开,分别保存为独立的 wav 文件。
咨询QQ276998853 天前
语音识别
COMSOL水力压裂模型:应力-渗流-损伤一体化模拟及效率优化comsol水力压裂应力-渗流-损伤模型 [1]在以往的研究中,用COMSOL模拟水力压裂都需要借助MATLAB来传递数据计算损伤,因此效率不高。 [2]本模型用Comsol模拟注水过程中的岩石损伤,考虑完全耦合模型,无需借MATLAB计算损伤变量,计算效率高。 [3]关于岩石的非均匀参数,例如弹性模量和渗透率等,都是通过MATLAB用Weibull分布生成,然后再导入到COMSOL中。
余蓝3 天前
人工智能·语言模型·transformer·语音识别·audiolm
部署语音模型CosyVoice,附多种玩法下载CosyVoice模型的github仓库:github不太稳定,可能连不上:一般过一会再重试即可。
利刃大大5 天前
开发语言·c++·中间件·语音识别
【c++中间件】语音识别SDK && 二次封装使用前先查阅下面的使用文档:第一步:登录百度云网址:https://login.bce.baidu.com/
c***97986 天前
前端·react.js·语音识别
React语音识别案例语音识别说白了,就是让电脑听懂人话,然后把说的话转成文字。在Web开发里,现在主流用的是Web Speech API,这是浏览器原生支持的功能,不需要额外装什么库。它分为两部分:语音合成(Text-to-Speech)和语音识别(Speech Recognition)。我们这里重点聊语音识别。这个API允许JavaScript直接调用麦克风,实时捕捉语音并转换成文本。不过要注意,它不是所有浏览器都支持,比如Chrome和Edge没问题,但Firefox和Safari可能得看版本。所以,在实际项目里,最好先
2401_827560207 天前
python·语音识别
【Python脚本系列】PyAudio+librosa+dtw库录制、识别音频并实现点击(四)PyCaw库可以获取应用程序的峰值音量,但是无法识别不同声音,这时候就需要用到以下几个库:PyAudio:实时采集音频流(VB-Cable 或麦克风)
y***54888 天前
人工智能·语音识别
Vue语音识别开发先说说浏览器的原生支持情况。目前主要依赖Web Speech API,但各家的实现程度天差地别。Chromium内核的浏览器支持度最好,Firefox和Safari就有点玄学。特别是在移动端,iOS上的限制更多,需要用户主动触发才能启动语音识别。这点特别坑,第一次测试时在iPhone上死活调不起来,后来才发现必须绑定在用户点击事件里。
S***H2838 天前
前端·vue.js·语音识别
Vue语音识别案例首先,我们需要了解浏览器提供的Web Speech API,它是实现语音识别的核心工具。这个API允许JavaScript直接访问设备的麦克风,并将语音转换为文本。需要注意的是,不同浏览器的支持程度可能有所差异,例如Chrome和Edge对它的兼容性较好,而其他浏览器可能需要额外配置。在Vue项目中,我们可以通过创建一个自定义组件来封装语音识别逻辑,这样既能保持代码的模块化,又便于复用。
不解不惑8 天前
服务器·whisper·语音识别
OpenAI whisper 语音识别服务器搭建语音识别是人机交互的一个关键技术,机器人本体携带的算力和能源一般比较有限,通过TCP/IP socket通信,把计算分配到云端是一种选择。
2***B44911 天前
开发语言·javascript·语音识别
JavaScript语音识别案例先说说背景吧。语音识别在Web开发中越来越常见,比如语音搜索、语音命令控制页面元素,甚至辅助无障碍访问。JavaScript通过Web Speech API提供了原生的支持,不需要依赖第三方库,就能在浏览器里直接处理语音输入。这个API主要分两部分:语音识别(SpeechRecognition)和语音合成(SpeechSynthesis)。今天咱们重点聊聊语音识别这部分。它本质上就是把用户说的话转换成文本,然后你可以用这个文本去触发各种操作,比如搜索、导航或者数据提交。
J***793911 天前
数据库·mysql·语音识别
MySQL语音识别案例先来说说整体架构。核心思路就是把语音转文字和语义解析的结果存进MySQL,后续通过SQL语句就能实现智能检索。比如用户说“查询上个月销售额”,系统先用语音识别引擎转成文本,再用NLP技术提取“时间范围:上月”“查询目标:销售额”等关键信息,最后拼接成SQL语句查询数据库。这里我在MySQL里设计了四张核心表:audio_files表存原始语音路径和MD5值,speech_text表放识别文本和置信度,nlp_entities表记录解析出的业务实体,还有个relation_table专门处理多轮对话的上下文
y***866911 天前
数据库·mysql·语音识别
MySQL语音识别开发先说说我用的技术选型。语音识别这边,没选那些特别重的深度学习框架,而是用了Python里的SpeechRecognition库,搭配Pyaudio处理音频流。为啥这么选?主要是轻量、灵活,而且和MySQL对接起来方便。MySQL我用的是8.0版本,主要是看中它的窗口函数和JSON字段支持,后面处理识别结果的时候会很有用。