语音识别

lili-felicity2 小时前
人工智能·whisper·语音识别
CANN加速Whisper语音识别推理:流式处理与实时转录优化Whisper作为OpenAI推出的开源语音识别模型,以其卓越的多语言识别能力和鲁棒性著称。然而,Whisper的推理过程涉及复杂的音频预处理、大规模的Transformer计算和大量的内存访问,对实时应用提出了严峻挑战。CANN针对Whisper推理场景推出了全面的优化方案,通过流式处理、算子融合、内存优化等技术,显著提升了Whisper的推理性能和实时性。本文将深入剖析CANN如何优化Whisper推理,重点讲解流式处理架构、音频预处理优化和实时转录策略。
UVhsSauK10 小时前
语音识别
家庭能源管理matlab 采用matlab编制家庭能源管理程序,包括各种家用电器的调度运行策略...家庭能源管理matlab 采用matlab编制家庭能源管理程序,包括各种家用电器的调度运行策略,程序通用性好。
“负拾捌”10 小时前
python·websocket·微信小程序·uni-app·大模型·腾讯云·语音识别
python + uniapp 结合腾讯云实现实时语音识别功能(WebSocket)最近在尝试使用腾讯云来给自己的大模型小程序加语音识别功能,但是论坛上对于这方面的文章似乎很少,所以只能硬看官网的介绍以及参考大佬提供的部分代码磕磕绊绊实现了这一功能。
2601_949146531 天前
人工智能·python·语音识别
Python语音通知接口接入教程:开发者快速集成AI语音API的脚本实现Python开发中,AI语音通知是提升消息触达率的核心功能,广泛应用于订单告警、验证码下发、系统通知等场景,但开发者在接入Python语音通知接口时,常因参数加密逻辑不清晰、请求方式选择不当、异常处理缺失导致集成效率低,甚至上线后频繁触发405(密码错误)、4081(频率超限)等错误。本文聚焦Python语音通知接口的快速集成,从原理拆解到实战脚本实现,再到避坑技巧总结,帮你1小时内完成AI语音API的稳定接入,解决集成过程中的各类技术痛点。
做萤石二次开发的哈哈1 天前
人工智能·语音识别
萤石云广播:智能语音广播,一键文字下发萤石开放平台云广播,为您提供个性化的云端语音播报服务,支持自定义语音内容下发至设备进行实时广播或设为提示音,助力企业与机构在智慧社区、智慧工地、智慧商贸等多场景中实现智能化、标准化、自动化的语音交互体验。
Leinwin1 天前
人工智能·音视频·语音识别
VibeVoice-ASR:突破60分钟长音频处理瓶颈,语音识别进入端到端时代近日,微软宣布开源其新一代语音识别模型VibeVoice-ASR,该模型突破传统语音转文本技术的限制,实现了长音频单次处理的革命性进步,支持单次处理长达60分钟的连续音频输入。
360智汇云1 天前
人工智能·语音识别
让 AI 可见 :智能体对话全面升级数字人能力360智汇云智能体对话AIMI是一套面向业务系统的多模态数字人AI交互引擎,融合语音、图像、文本与数字人表达能力,通过一键配置,快速构建 更自然、更可信、更具服务感的智能客服体验,显著降低企业部署与开发成本。
jiang_changsheng1 天前
java·人工智能·git·python·机器学习·github·语音识别
工作流agent汇总分析 2在上一版三大阵营(开箱即用SaaS、可自托管平台、深度开发框架)的基础上,我们必须新增一个极具颠覆性的类别:系统级具身智能体框架。OpenClaw正是这一类的开创者。
迈火2 天前
人工智能·gpt·计算机视觉·stable diffusion·aigc·语音识别·midjourney
SD - Latent - Interposer:解锁Stable Diffusion潜在空间的创意工具Latent Interposer InputStyle BlenderLatent EditorLatent to Image
陈天伟教授2 天前
人工智能·深度学习·语音识别
人工智能应用- 语言理解:01. 写作与对话语言是人类最重要的交流工具,而语言理解与生成技术是人工智能研究的重要领域。从写作到对话,再到其他语言任务,都需要对语言进行理解。本节将带你探索人类语言的秘密,并解析大语言模型对语言的强大理解能力。
风栖柳白杨2 天前
人工智能·音视频·语音识别
【语音识别】一些音频的使用方法numpy转PCM流: mono.tobytes()  PCM流转numpy数组: pcm = np.frombuffer(pcm_bytes, dtype=np.int16)
风栖柳白杨2 天前
人工智能·python·语音识别·xcode·audiolm
【语音识别】Qwen3-ASR原理及部署这张图通过生动的卡通形象和具体的使用场景,清晰地展示了Qwen3-ASR模型的六大核心优势:总之,这张图是一个非常成功的视觉化宣传材料,它将一个复杂的AI技术(语音识别)用简单易懂的方式呈现出来,突出了其在各种真实世界挑战场景下的强大性能。
启友玩AI2 天前
c语言·人工智能·嵌入式硬件·ai·语音识别·pcb工艺
方言守护者:基于启英泰伦CI-F162GS02J芯片的“能听懂乡音”的智能夜灯DIY全攻略在中国广袤的土地上,从东北的豪迈到岭南的温婉,从吴侬软语到川渝方言,语言的多样性构成了中华文化最动人的篇章。然而,在智能家居普及的今天,标准的普通话识别系统却无形中竖起了一道技术屏障——多少老人对着智能设备用方言反复呼唤却得不到回应,多少家庭因为语音控制“听不懂”方言而让科技产品成了摆设。
童话名剑2 天前
笔记·深度学习·语音识别·触发词检测
语音识别 与 触发词检测(吴恩达深度学习笔记)目录1.语音识别(1)注意力模型构建语音识别(2)CTC损失函数(CTC cost)来做语音识别2.触发词检测
微光闪现2 天前
人工智能·语音识别
实测分享:夏杰语音性能资源深度解析,轻量高效适配全场景在语音识别与交互技术快速普及的当下,越来越多开发者和用户开始关注“性能与资源消耗的平衡”。尤其是对于嵌入式设备、低配置终端以及追求极致流畅体验的场景来说,语音工具的资源占用能力,直接决定了其适配范围和使用体验。近期实测了夏杰语音的性能资源表现,其轻量化设计带来的惊喜的表现,值得和各位技术同仁分享。
陈天伟教授2 天前
人工智能·深度学习·语言模型·自然语言处理·语音识别
人工智能应用- 语言理解:02. 语言模型后来,研究者发现词与词之间的关联更能反映语言的规律。一句话是否合理,往往取决于其中的词语搭配是否常见。例如,“我看电视”是合理的,因为“我”和“看”常常搭配在一起,“看”和“电视”也是自然的组合。而类似于“我吃电视”或“我打电视”这样的表达则不合常理,因为这些搭配在实际语言中几乎不存在。
开开心心_Every2 天前
人工智能·游戏·微信·pdf·excel·语音识别·memcache
音频视频转文字工具,离线语音识别免费软件介绍今天给大家介绍一款实用的音频视频转文字工具——VidToText。它自带语音识别功能,体积545M,绿色免安装,双击图标就能直接用,特省心。
开开心心_Every2 天前
网络·游戏·微信·pdf·电脑·excel·语音识别
电脑网速加速工具,无线有线叠加网络软件介绍今天给大家介绍一款叫“网络叠加工具”的小软件,它主打的就是加速电脑网络,原理是把无线和有线网络叠加起来用,让网速更顺畅。
陈天伟教授3 天前
人工智能·语音识别
人工智能应用-机器听觉:7. 统计合成法2000 年以后,研究者提出了基于统计模型的语音合成方法。与拼接法保留原始录音片段不同,统计合成法将语料库中每个音素的语音片段“总结”成一个称为隐马尔可夫模型(HMM)的统计模型。在前一节中讨论过,HMM 模型可以描述发音的动态过程,因此可以用来合成声音。具体而言,首先用 HMM 模型生成每个音素的声门和声道的参数,再利用声码器(源-滤波模型)从这些参数合成语音。如图 30.9所示,对每个音素(“n”“i”“h”“ao”)分别建立 HMM 模型,利用这些模型生成声门和声道参数,再通过声码器读取这些参数并合
DisonTangor3 天前
人工智能·开源·语音识别
阿里开源语音识别模型——Qwen3-ASRQwen3-ASR系列包含Qwen3-ASR-1.7B和Qwen3-ASR-0.6B两款模型,支持52种语言与方言的语种识别及语音转写。二者均基于大规模语音训练数据及基座模型Qwen3-Omni强大的音频理解能力构建。实验表明,1.7B版本在开源ASR模型中达到最优性能,并可媲美最强的商业专有API。主要特性如下: