语音识别

我是海飞14 小时前
人工智能·python·tensorflow·语音识别·neo4j
TensorFlow的Yes/No 关键词识别模型训练参考 TensorFlow 官方教程的 Yes/No 关键词识别模型训练脚本,可以生成直接替换原有mirco_speech识别模型数据的C文件。
张成AI2 天前
人工智能·gpt·语音识别
OpenAI GPT-realtime 实时语音 API 完整指南:2025年语音AI的革命性突破OpenAI 的 GPT-realtime 是一款革命性的语音对语音模型,通过实时 API (Realtime API) 提供服务。与传统的语音处理流程不同,这套系统直接处理和生成音频,无需经过语音转文本再转语音的复杂链条。
森之鸟3 天前
华为·语音识别·harmonyos
开发中使用——鸿蒙CoreSpeechKit语音识别不再是一个安安静静的“APP”,做一个可以发出声音,甚至讲话、与人进行交互,是一个APP孜孜不倦的追求和最终理想。————一个APP的独白。
水印云3 天前
人工智能·音视频·语音识别
视频提取文字用什么软件好?分享6款免费的视频转文字软件!在当下这个信息高速流转的时代,视频早已成为我们获取信息、创作内容的主要形式之一。但面对海量视频,你是不是也常陷入这些困境:剪辑视频时,反复听语音记字幕累到头晕;整理课程或会议视频笔记时,手速赶不上语速,关键信息总遗漏;想从长视频里找重点内容,却要逐帧回放,浪费大量时间?
cici158743 天前
神经网络·matlab·语音识别
matlab-神经网络的语音识别语音识别是一个复杂的模式识别问题,通常涉及两个主要任务:这里,我们将重点介绍使用深度学习进行语音命令识别,这是入门和实验最常见、最直接的方法。MATLAB 提供了强大的工具和预置的数据集,使得这个过程变得相对简单。
岁月的眸5 天前
人工智能·语音识别
根据并发和响应延迟,实现语音识别接口自动切换需求需求描述:科大讯飞的API文档:进入讯飞开放平台的网页,注册账号,然后选择语音识别和实时语音听写服务.
HPC_fac130520678167 天前
人工智能·笔记·深度学习·架构·数据挖掘·语音识别·gpu算力
英伟达发布高效小模型Jet-Nemotron:基于PostNAS与JetBlock架构,准确率与吞吐量双突破摘要:英伟达最新推出的Jet-Nemotron小模型系列(2B/4B参数)凭借两项关键技术突破——后神经架构搜索(PostNAS)与新型线性注意力模块JetBlock,在多项基准测试中显著超越当前主流开源模型,并在H100 GPU上实现最高53倍的推理吞吐量提升。
东语~8 天前
深度学习·transformer·语音识别
Transformer 模型在自动语音识别(ASR)中的应用自动语音识别(Automatic Speech Recognition,ASR),简单来说,就是让计算机能够听懂人类的语音,并将其转换为文本的技术。在我们的日常生活中,ASR 有着极为广泛的应用。比如大家常用的语音助手,像苹果的 Siri、小米的小爱同学等,当我们对着它们说话,它们能够快速识别我们的语音指令,进而帮我们查询信息、设置提醒、拨打电话等;在智能车载系统中,司机通过语音就能控制导航、播放音乐,无需手动操作,大大提高了驾驶的安全性;还有在会议记录、语音转写等工作场景中,ASR 技术也能极大地提高工
MARS_AI_8 天前
人工智能·自然语言处理·交互·语音识别
云蝠智能 Voice Agent:多语言交互时代的AI智能语音呼叫在全球化与智能化深度融合的今天,语音交互已成为人机交互的核心入口之一。从智能客服到智能家居,从跨境电商到在线教育,语音技术的应用边界正不断拓展。云蝠智能推出的 VoiceAgent 作为新一代 AI 语音交互平台,凭借其对多种国际语言、中文方言的深度支持,丰富的音色选择以及领先的语音克隆技术,正在重塑行业对智能语音交互的认知。本文将从技术架构、核心功能、应用场景及行业价值等维度,全面解析云蝠智能 VoiceAgent 的技术突破与实践意义。
北方有星辰zz9 天前
网络·人工智能·语音识别
语音识别:概念与接口语音识别技术是一种将人类语音转换为计算机可识别的文本或命令的技术。它使用声音信号处理、语音分析、语音识别算法等技术,将人类语音转换为计算机可识别的文本或命令。
即兴小索奇13 天前
人工智能·ai·语音识别·商业·ai商业洞察·即兴小索奇
AI适老服务暖人心:AI适老机顶盒破数字鸿沟、毫米波雷达护独居安全,银发生活新保障银发经济领域长期受限于 “专业照护资源稀缺”“老年人数字适应能力弱”“独居老人安全隐患多” 的困境,而 AI 技术的适老化改造,正让银发服务从 “被动保障” 转向 “主动关怀”,既能帮老年人跨越数字鸿沟,又能为独居老人筑起安全防线,让晚年生活更便捷、更有安全感。
静心问道13 天前
人工智能·语音识别·应用·ai技术应用
SEW-D:语音识别中无监督预训练的性能与效率权衡温馨提示: 本篇文章已同步至"AI专题精讲" SEW-D:语音识别中无监督预训练的性能与效率权衡本文研究了自动语音识别(ASR)中预训练模型的性能与效率权衡。我们聚焦于wav2vec 2.0,并形式化了几种影响模型性能和效率的架构设计。通过整合我们的所有观察,我们提出了SEW(Squeezed and Efficient Wav2vec),一种在性能和效率两个维度上均有显著改进的预训练模型架构,适用于多种训练设置。例如,在LibriSpeech的100小时-960小时半监督设置下,SEW与wav2vec
唯创知音14 天前
语音识别·tts语音合成芯片
WT2606B 驱屏语音芯片新增蓝牙功能:功能集成一体化,产品升级自动化,语音交互无线化,场景应用普适化!小伙伴们,欢迎来到我们的 #唯创芯片小讲堂!今天我们要为大家介绍一位多才多艺的"芯片全能手"——WT2606B驱屏语音芯片。这颗芯片将在今年8月的I0TE物联网展及ELEXCON 2025深圳国际电子展上大放异彩。
ToTensor15 天前
人工智能·语音识别·xcode
Paraformer实时语音识别中的碎碎念近期在做一些语音识别相关的工作,使用Paraformer实时语音识别作为后端服务在开发过程中,碰到的一些诡异的问题,在此做个记录
EthanLifeGreat17 天前
人工智能·pytorch·深度学习·音频·语音识别
ParallelWaveGAN-KaldiFree:纯Pytorch的PWGEspnet在几年前已经实现过了PWG了,但是还是需要使用kaldi格式的文件作为输入输出,十分不便,博主写了一份使用Pytorch进行数据预处理的代码,直接接入Espnet的PWG,不需要构造Kaldi文件或环境,直接进行PWG训练和推理。
David WangYang18 天前
物联网·安全·语音识别
基于 IOT 的安全系统,带有使用 ESP8266 的语音消息这是另一个有趣的 IOT 项目,我们将在其中构建一个安全系统,当它检测到某人时可以触发电子邮件。该项目融合了 ESP8266、PIR 传感器和 ISD1820 Voice 模块的强大功能。在本文的最后,您将构建一个功能齐全的安全系统,该系统可以通过互联网远程布防/撤防(激活/停用)。您可以录制自己的音频剪辑,该音频剪辑将在检测到移动时播放,还可以向特定电子邮件 ID 发送带有日期和时间的邮件,说明入侵情况。够酷的.....!!!??
胡耀超18 天前
python·深度学习·ffmpeg·音视频·语音识别·多模态·asr
DataOceanAI Dolphin(ffmpeg音频转化教程) 多语言(中国方言)语音识别系统部署与应用指南官方地址:DataoceanAI-DolphinDataOceanAI Dolphin 是由清华大学与DataOceanAI联合开发的多语言自动语音识别(ASR, Automatic Speech Recognition)系统。该系统专门针对东方语言设计,支持40种亚洲语言和22种中文方言,基于超过21万小时的训练数据构建。系统采用Transformer架构,提供了从140M到1.67B参数规模的多个模型版本。
爱分享的飘哥19 天前
人工智能·语音识别·ai训练·视频处理·数据预处理·图像标注·字幕提取
第六十五章:AI的“精良食材”:图像标注、视频帧抽帧与字幕提取技巧在上一章,我们像“数据猎手”一样,学会了如何从网页、视频、文档等多种来源,自动化地采集海量原始数据。但这些原始数据,往往还不能直接被AI模型“消化”。
星哥来了23 天前
前端·edge·语音识别
文字转语音 edge_tts1、前沿这是一款微软语音转文字的项目,不要电脑配置因为他是通过类爬虫方式把文字转语音,跟官方比起来速度会慢一点但是基本够用
ViiTor_AI1 个月前
人工智能·语音识别
如何给小语种视频生成字幕?我的实测方法分享做视频内容创作时,一个常见需求是:先把小语种视频里的原文语音转成文字字幕。比如韩语、西班牙语、阿拉伯语等,如果没有字幕,后期翻译、剪辑、搜索都很麻烦。但手动打轴、听写原文不仅耗时,还很容易出错,特别是多说话人的场景。我之前都是用字幕软件一行行听写原文,再自己加时间轴,短视频都要做上一个小时