语音识别

独自归家的兔1 小时前
人工智能·华为·语音识别
基于 cosyvoice-v3-plus 的 个人音色复刻 (华为OBS)在 AI 语音技术飞速发展的今天,个性化语音交互已成为智能产品的核心竞争力之一。从智能客服的专属音色、有声书的个性化朗读,到虚拟数字人的语音定制,个人音色复刻 技术正逐步从实验室走向商业化落地。
Nautiluss1 天前
linux·人工智能·嵌入式硬件·音频·语音识别·dsp开发·智能音箱
一起调试XVF3800麦克风阵列(三)XVF3800 的实际性能很大程度上取决于其所集成到的最终产品的电气和声学环境,为了达到最佳性能,包括通过产品认证测试,必须执行配置和调优过程,使固件适应最终产品的外形尺寸和硬件设计。
HySpark1 天前
人工智能·语音识别
基于声纹预处理技术的智能语音识别实现在 AI 语音识别场景中,语音数据来源复杂,通话环境不可控,往往伴随强背景噪声、回声、通道失真以及大量无效静音片段。如果直接对原始语音进行识别或声纹建模,效果会明显下降。因此,在整个系统中,声纹预处理模块是决定后续识别准确率的关键基础环节。
天庭鸡腿哥2 天前
人工智能·语音识别
Vivo出品,干趴付费!啰嗦几句现在语音转文字、文字转语音好多大厂都实行了收费制度。虽然我推荐了不少的免费软件,但是这类的软件由于是个人维护,所以很容易就失效了。
凤希AI伴侣2 天前
人工智能·语音识别·凤希ai伴侣
凤希AI伴侣V1.3.2.0正式发布:语音创作全链路升级,个性化交互再进阶 2025年12月28日凤希AI伴侣迎来V1.3.2.0版本更新。本次更新聚焦「语音内容创作闭环」「个性化交互体验」「底层性能优化」三大核心方向,新增多项实用功能,同时针对用户反馈打磨体验、修复已知问题,进一步践行“让AI触手可及”的普惠理念。
Dev7z3 天前
人工智能·语音识别
基于Matlab的Logistic混沌映射语音信号加密与解密系统设计与仿真摘要:为了保护语音信号在网络通信中的传输安全,避免敏感语音信息被非法窃取或篡改,本文设计并实现了一种基于Logistic混沌映射的语音信号加密与解密系统。该系统采用MATLAB作为开发平台,并结合GUI(图形用户界面)技术,为用户提供了友好的交互界面,支持语音信号的录制、加密、解密以及信号的时域和频域可视化分析功能。通过混沌理论中的Logistic映射生成加密序列,系统实现了高效且复杂的语音加密过程。
杰瑞不懂代码3 天前
开发语言·matlab·语音识别·am·dsb-sc·vsb
基于 MATLAB 的 AM/DSB-SC/VSB 模拟调制与解调仿真及性能对比研究模拟调制作为经典模拟通信系统的核心内容,既是频谱搬移思想最直观的载体,也是理解“带宽占用—解调复杂度—抗噪性能”三者权衡关系的基础。在通信实验中,AM(带载波幅度调制)、DSB-SC(抑制载波双边带) 以及 VSB(残留边带) 通常被用作三个层次的代表:AM 强调包络可检波与实现简洁性,DSB-SC 强调同步解调与载波恢复的重要性,而 VSB 则体现频谱效率与系统工程折中的设计思想。
未来之窗软件服务3 天前
语音识别·asr·仙盟创梦ide·东方仙盟
幽冥大陆(七十五) MinGW编译 WISPER ASR源码fairyalliancewhisper——东方仙盟练气期https://github.com/cyberwin/fairyalliancewhisperhttps://www.mingw-w64.org/
未来之窗软件服务3 天前
javascript·whisper·语音识别·仙盟创梦ide·东方仙盟
幽冥大陆(七十一) Whisper-ASR网页对接语音识别—东方仙盟练气期在东方仙盟广袤无垠的世界里,ASR(Automatic Speech Recognition,自动语音识别)技术宛如一种神奇的 “灵识传音” 仙术,正悄然改变着商业与娱乐领域的格局,为其带来前所未有的便捷与奇妙体验。其中,基于 Whisper 的语音识别应用,更是如同仙盟中的神秘法器,发挥着关键作用。
Nautiluss4 天前
大数据·人工智能·嵌入式硬件·音频·语音识别·dsp开发
一起调试XVF3800麦克风阵列(二)上一章我们大概了解了下四个波束,这里官方给我们写了一个脚本,直观的展示了几个波束的运行可视化。运行如下,可以清楚看到每一束波形的方向(目前我就是在90度方向说话,输出处理过的波束刚好与beam1重合!):
TMT星球4 天前
人工智能·语音识别
欧瑞博推出全新集成方案,用谷电做空调,一晚只需一度电12月26日,欧瑞博创始人兼CEO王雄辉(Mark)站在2025年末战略新品发布会的舞台上,背后的屏幕闪烁着“智慧居住新纪元”六个大字。“我们今年在产品上还是有新的突破和思考。”他开场说道。
未来之窗软件服务4 天前
人工智能·whisper·语音识别·仙盟创梦ide·东方仙盟
幽冥大陆(六十九) Whisper-CLI —东方仙盟练气期Whisper-CLI 是基于 OpenAI Whisper 模型的命令行工具,由 whisper.cpp 项目封装实现,能在本地快速完成语音转文字、精准识别特定指令的任务。对于初学者而言,无需复杂的代码开发,仅靠几条命令就能解锁语音识别能力。
北京宇音天下4 天前
人工智能·语音识别
城市守护者:VTX316芯片如何用语音重塑公共安全播报在日常的城市生活中,突发火警、恶劣天气或人流疏导,往往依赖语音播报系统及时传递信息。然而,传统播报设备只能播放预存内容,更新滞后且缺乏感染力。北京宇音天下科技有限公司推出的VTX316语音合成芯片,正以革命性的TTS技术解决这一痛点——它让冰冷的喇叭变身“智慧解说员”,用动态语音守护公共安全。 一、核心技术优势:重新定义安全播报标准 在公共安全播报领域,语音合成芯片的性能直接关系到应急信息传递的效率与可靠性。VTX316 语音合成芯片通过四大核心技术突破,构建起覆盖“听清-及时-持久-适应”全维度的安全播
net3m335 天前
人工智能·机器人·语音识别
做了一块可以调用百度云语音识别api和tts api的esp32 s3开发板,支持跑ai小智机器人的源码,基于idf5.5.1库编译,分享下esp32调用百度语音识别api
前端世界5 天前
华为·语音识别·harmonyos
鸿蒙语音控制实战:从语音识别到业务执行的完整链路随着智能设备和物联网场景的不断普及,语音控制已经从“锦上添花”的功能,逐渐变成很多应用的基础交互方式。 在鸿蒙系统中,官方已经提供了较为完整的语音识别能力,但在实际项目中,很多开发者会卡在几个地方,比如不知道完整流程怎么走、语音识别结果怎么和业务结合、或者代码能跑但不好扩展。
agicall.com6 天前
人工智能·语音识别
实时语音转文字设备在固话座机中的重要价值让沟通无障碍:实时语音转文字设备在固话座机中的重要价值在当今高度互联的社会中,电话依然是人们日常沟通的重要工具之一。尤其对于年长者、听力障碍人士,或是在嘈杂环境中工作的人群而言,固定电话(固话座机)因其操作简便、信号稳定、无需频繁充电等优势,仍然被广泛使用。然而,一个普遍却常被忽视的问题是:在通话过程中,由于听力下降、环境噪音干扰,或是对方语速过快、口音较重等原因,用户常常无法听清甚至完全错过对方的话语。这不仅影响沟通效率,更可能带来误解、焦虑甚至安全隐患。
行业探路者6 天前
学习·音视频·语音识别·二维码·设备巡检
如何利用活码生成产品画册二维码?活码技术为生成产品画册二维码提供了简便的解决方案。通过几个简单的步骤,用户可以轻松将PPT文档转化为二维码,提升信息分享的效率。这样,无论是在展会、会议还是其他推广活动中,客户都能迅速获取所需的信息,增强参与体验。与传统纸质宣传相比,活码不仅节约了资源,还能实时更新内容,让客户随时访问最新资料。这种灵活高效的分享方式,使得产品推广变得更加便捷,助力企业在不同场景中充分展现价值。
盐焗西兰花6 天前
学习·语音识别·harmonyos
鸿蒙学习实战之路-语音识别-离线转文本实现最近好多朋友问我:“西兰花啊,我想做个鸿蒙应用,需要离线语音转文字功能,这玩意儿难不难啊?” 害,这问题可问对人了!作为一个正在把 npm install 炒成 ohpm install 的前端厨子_,我刚好用鸿蒙的 SpeechKit 实现过类似功能~
岁月的眸7 天前
人工智能·go·语音识别
【科大讯飞声纹识别和语音内容识别的实时接口实现】“先注册声纹 → 实时转写里开启声纹分离”这个大方向是完全对的,现在主要是把整体流程和各个环节的“职责边界”理顺,再针对“识别内容 + 说话人”做一套稳定的流式方案。
Nautiluss7 天前
linux·人工智能·python·音频·语音识别·实时音视频·dsp开发
一起玩XVF3800麦克风阵列(十)上一章我们部署在树莓派上面部署的32bit 的操作系统,但是我发现其他一切正常,就是Audacity使用还有BUG,一点录音就stopped!! 这就很不能忍了,所以我们继续安装最新的Debian Trixie - 64 - bit版本来继续折腾。