语音识别

李永奉3 小时前
人工智能·单片机·嵌入式硬件·物联网·语音识别
杰理芯片SDK开发-ENC双麦降噪配置/调试教程到现在为止也开发了许多杰理TWS蓝牙耳机项目SDK的案子,在调试案子时不断的向前辈们学习到了很多关于蓝牙TWS耳机专业的知识。想在这里做一个学习汇总,方便各位同行和对杰理芯片SDK感兴趣的小伙伴们学习;
HySpark6 小时前
人工智能·语音识别
关于语音智能技术实践与应用探索在金融风控、客户服务、政务热线、反诈预警等场景中,大量业务依赖电话、语音交互完成。传统人工质检和人工监听方式效率低、覆盖率有限,难以满足规模化监管和实时风险防控需求。同时,随着AI合成语音、语音克隆等技术的发展,诈骗话术呈现出高度拟真化趋势,传统规则模型识别能力逐步失效。
风栖柳白杨2 天前
人工智能·语音识别
【语音识别】pyaudio使用示例PyAudio就是Python对PortAudio的封装,用来做音频采集和播放。 常见用途:pip install pyaudio
阿杰学AI2 天前
人工智能·ai·语言模型·aigc·语音识别·多模态·原生多模态
AI核心知识72——大语言模型之Native Multimodality(简洁且通俗易懂版)原生多模态 (Native Multimodality) 是指大模型从设计和预训练的“第一天”开始,就被构建为能够同时理解和生成多种类型数据(文本、图像、音频、视频)的模型。
ViiTor_AI2 天前
人工智能·音视频·语音识别
AI 语音克隆入门指南:如何用 3 秒音频生成真实人声?过去数年,全球 AI 语音市场迎来高速发展。融合语音识别、语音合成与语音智能体三大领域的该行业,预计将从 2024 年的 30 亿美元规模,增长至 2034 年的 470 亿美元。推动这一增长的核心技术动力,是 ViiTor AI 等企业在语音克隆技术的精度与性能上取得的突破性进展 —— 如今只需输入 10 秒的录音素材,就能生成与原声高度相似、真假难辨的逼真人类语音。
ViiTor_AI2 天前
人工智能·音视频·语音识别
2026 年 AI 配音工具深度对比:视频旁白与有声书为什么越来越依赖语音克隆?绝大多数视频与有声书创作,都对音频表现有着极高的依赖性,尤其是人声旁白的质量。相较于粗糙的画面,观众和听众对生硬、别扭的旁白容忍度更低。无论是观看 YouTube 科普解说视频,还是用手机沉浸式聆听十小时的虚构故事,旁白的语气、语速与表达感染力,都是维系受众注意力的关键所在。
小朱笼包2 天前
人工智能·websocket·百度·小程序·语音识别
小程序实现对接百度AI大模型,通过websocket连接进行百度实时语音识别,将返回的文字调用AI大模型API获得返回的消息内容进行文字转语音朗诵并操作我们的需求是对接AI大模型来优化客户的操作,实现的方案是在小程序里面获取录音权限后,调用百度的实时语音转文字将语音帧通过websocket进行处理,结束帧返回识别的文字后,调用AI大模型的api,将识别到的文字传入到百度AI大模型接口中,返回识别的意图进行操作,并调用百度的文字转语音朗读返回的消息内容(ps:AI大模型中关键字需要自己在控制台创建)。
风栖柳白杨3 天前
人工智能·语音识别
【语音识别】soundfile使用方法先看完整:代码逐句解释:这个函数在干嘛? 从音频文件中,按照时间戳一段 -> 转成单声道 ->重采样 -> 返回给模型用
大雷神3 天前
华为·语音识别·harmonyos
HarmonyOS智慧农业管理应用开发教程--高高种地-- 第19篇:语音合成 - TTS语音播报在前面的教程中,我们已经在图像识别功能中简单使用了TTS语音播报。本篇教程将深入讲解HarmonyOS Core Speech Kit的TTS(Text-to-Speech)功能,并在智慧农业场景中实现多种语音播报应用,让应用更加智能和人性化。
迈火3 天前
人工智能·gpt·计算机视觉·stable diffusion·aigc·语音识别·midjourney
Facerestore CF (Code Former):ComfyUI人脸修复的卓越解决方案Facerestore CF InputFacerestore CF ProcessorFacerestore CF Output
Su玊玊4 天前
人工智能·语音识别
中文语音识别开源数据整理最近尝试做离线的通用语音识别相关实验,收集了一些数据集,整理如下。所有都验证过可以获取,或者曾经可以获取。有一些也没有找到比如 AIDATATANG_1505ZH。
DisonTangor4 天前
人工智能·语音识别·xcode
通义实验室开源端到端语音识别大模型—— Fun-ASR-Nano-2512Fun-ASR是由通义实验室推出的端到端语音识别大模型。该模型基于数万小时真实语音数据训练,具备强大的上下文理解能力和行业适应性,支持低延迟实时转写,覆盖31种语言。其在教育、金融等垂直领域表现优异,能精准识别专业术语和行业表达,有效应对"幻觉"生成和语种混淆等挑战,实现"听得清、听得懂、写得准"。
新农仓4 天前
语音识别·gradio·asr·paraformer
5分钟部署Paraformer语音识别,离线转写带Gradio界面超简单你是否遇到过这些场景:别再折腾了。今天带你用5分钟完成一套真正可用的本地语音识别系统——不联网、不依赖API、不担心数据泄露,上传音频→点击识别→秒出带标点的中文文本,全程在自己机器上跑完。
丹力4 天前
语音识别·funasr·ai应用·星图gpu
如何高效实现中文语音识别?试试科哥定制版FunASR大模型镜像你有没有遇到过这种情况:录了一段会议音频,想转成文字整理纪要,结果找的工具要么识别不准,要么操作复杂,甚至还要上传到云端——不仅慢,还担心隐私泄露。
晁好刚4 天前
语音识别·vad·端点检测·fsmn-vad
语音识别预处理利器,FSMN-VAD实测推荐在构建语音识别系统时,你是否遇到过这些问题:长录音里夹杂大量静音和环境噪声,导致ASR模型误识别、响应延迟高;会议转录结果中堆满“呃”“啊”“嗯”等无效停顿;客服语音质检因背景音乐干扰漏判关键语句?这些不是模型能力不足,而是语音前端预处理没做对。
一个无名的炼丹师4 天前
人工智能·语音识别
ASR(语音识别)与TTS(文本转语音)技术深度解析与主流模型调用指南语音人工智能技术,即 ASR (Automatic Speech Recognition) 和 TTS (Text-to-Speech),是人机交互领域的两大核心支柱。本文将详细介绍这两种技术、分析其主流模型及其优势,并提供基于 Python 的调用代码示例。
开开心心_Every4 天前
网络协议·tcp/ip·游戏·微信·pdf·excel·语音识别
家长控制电脑软件:定时锁屏管理使用时长软件介绍今天要给大家推荐这款"电脑定时锁屏软件",它能通过定时锁定屏幕的方式,帮助家长合理安排孩子使用电脑的时间。
agicall.com4 天前
人工智能·语音识别·自动录音·固话座机·离线语音转写
信创电话助手(信电助)多设备支持指南支持同时连接多个 USB 电话录音盒 / 语音盒为保障设备稳定运行,建议使用以下扩展方式:💡 提示:优先选择带外接电源的扩展设备,可显著提升多设备稳定性。
Jorunk4 天前
人工智能·语音识别
使用F5-TTS训练自己的数据F5-TTS是一个基于流匹配(Flow Matching)技术的语音合成模型,能够生成流畅自然的语音。本文将详细介绍如何使用F5-TTS训练自己的语音合成模型,包括环境准备、数据预处理、模型训练和微调等步骤。
陈天伟教授4 天前
人工智能·语音识别
人工智能应用-机器听觉: 05.基于模式匹配的语音识别早期的语音识别技术就是基于“不同发音的共振峰不同”这一原理,通过分析语音的共振峰来区分不同的发音。1952 年,AT&T 公司的科学家首次利用语音的第一和第二共振峰实现了对十个英文数字的识别。如图 所示,每个小图对应一个数字,横轴表示第一共振峰F1,纵轴表示第二共振峰F2。图中的曲线展示了发音时共振峰的变化轨迹。可以看到,不同数字在 F1-F2 平面上形成了独特的轨迹。AT&T 的研究者正是利用这些轨迹上的差异,实现了对不同数字的有效区分