语音识别

硅农深芯17 小时前
人工智能·语音识别·信号处理·rf·射频·调制
解析RF信号的调制方式在无线通信的世界里,RF(Radio Frequency,射频)信号是信息传输的核心载体,从日常使用的手机、WiFi路由器,到航空航天的雷达、卫星导航系统,再到广播电视、物联网设备,都离不开RF信号的支撑。但单纯的RF电磁波本身只是一种高频振荡的能量,无法直接承载语音、文字、图像等有用信息——而调制技术,就是为RF信号“加载信息”的关键手段,它通过改变RF载波的固有特性,让无形的电磁波成为传递数据的“信使”。
电子科技圈3 天前
人工智能·mcu·音视频·智能家居·边缘计算·语音识别·智能硬件
赋能高端音频功能促进多样化设备创新——XMOS USB Audio平台实现四大功能升级领先的边缘AI与智能音频技术提供商XMOS日前宣布,其XMOS USB Audio方案平台已在近期完成了4个阶段性功能迭代,在声学调节、数字接口、功耗管理与信号处理等维度实现全面升级,以满足专业声卡、高端HiFi及便携式音频设备不断升级的市场需求,从而用高端的音频功能为专业级、功能级和消费级等多样化的设备创新赋能。
花千树-0103 天前
人工智能·深度学习·ai·语音识别·tts
IndexTTS2 推理性能分析IndexTTS2 是典型的自回归模型(逐 token 生成),对 GPU 性能特别敏感。➡️ 使用显卡能提升 8 倍 ~ 80 倍 (取决于 GPU 型号、批量、FP16 支持等)
不解不惑3 天前
人工智能·python·语音识别
gemma4 实现ASR语音识别1.下载模型2.下载测试音频文件来自paddlespeech(https://github.com/PaddlePaddle/PaddleSpeech/tree/develop)
花千树-0104 天前
人工智能·深度学习·macos·ai·语音识别·ai编程
IndexTTS2 在 macOS 性能最佳设置(M1/M2/M3/M4 全适用)IndexTTS2 本身是为 GPU(NVIDIA CUDA)优化的,而 macOS(Apple Silicon)走的是 Metal GPU 路线。然而 PyTorch 已经对 Metal 优化得相当不错,只要参数设置对了,在 mac 上完全可以跑得很丝滑。
渡我白衣4 天前
人工智能·深度学习·神经网络·机器学习·计算机视觉·自然语言处理·语音识别
见微知著——特征工程的科学与艺术“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。”在我们的旅程中,“数据是燃料”一章为我们奠定了坚实的基础。我们学会了如何评估数据质量、处理缺失值、进行基础的数值缩放与类别编码。那时,我们将原始数据视为一种粗犷的、未经加工的“原油”。
深念Y4 天前
ide·ai·语音识别·agi·多模态·文字识别·实时语言
多模态技术详解:TTS、ASR、OCR随着 AI 技术的发展,计算机正在从“看懂文字”向“听懂声音、看懂图像”全面进化。这就是多模态技术——让机器像人类一样,综合运用视觉、听觉、语言等多种感知能力来理解世界。
小龙报5 天前
人工智能·深度学习·计算机视觉·chatgpt·语音识别·文心一言·集成学习
【Coze-AI智能体平台】Coze智能体实操:翻译助手从工作流搭建到应用发布全流程详解🔥小龙报:个人主页 🎬作者简介:C++研发,嵌入式,机器人方向学习者 ❄️个人专栏:《coze智能体开发平台》 ✨ 永远相信美好的事情即将发生
李永奉5 天前
单片机·嵌入式硬件·物联网·语音识别
杰理芯片SDK-详细讲解AC695N/AC696N芯片SDK中APP模式流程现在为止也开发了许多杰理TWS蓝牙耳机、音响项目SDK的案子,在调试案子时不断的向前辈们学习到了很多关于蓝牙音响、蓝牙TWS耳机专业的知识。想在这里做一个学习汇总,方便各位同行和对杰理芯片SDK感兴趣的小伙伴们学习;
LaughingZhu5 天前
大数据·人工智能·经验分享·搜索引擎·语音识别
移动端 AI 的价值重估:设备端智能的拐点2012 年,云计算刚刚兴起,所有人都说:「把计算力留到云端去,终端只负责展示。」2026 年的今天,这个叙事正在被悄悄改写。
深念Y6 天前
websocket·网络协议·实时互动·webrtc·语音识别·实时音视频
从WebSocket到WebRTC,豆包级实时语音交互背后的技术演进本文内容源于我和Claude(Anthropic的AI助手)的一次技术讨论,整理成文分享给大家最近我和Claude进行了一场关于实时语音交互的深度讨论,从WebSocket的流式传输聊到WebRTC的全双工通话,再到豆包那种“真的能听懂声音”的端到端模型。Claude给了我很多技术细节的解释和验证,我觉得很有价值,整理成文分享出来。
LaughingZhu6 天前
大数据·人工智能·经验分享·搜索引擎·语音识别
Anthropic 收购 Oven 后,Claude Code 用运行时写了一篇护城河文章2025 年,Anthropic 收购了 Oven——Bun 的母公司。当时大家的解读是:「Anthropic 想拥有自己的 JavaScript 运行时。」说得通,但没有什么特别的。AI 公司投资基础设施,这在行业里是常态。
咚咚王者6 天前
人工智能·语音识别
人工智能之语音领域 语音处理 第六章 语音处理技术发展趋势与未来展望第六章 语音处理技术发展趋势与未来展望尽管语音处理技术取得了显著进展,但在复杂场景下的表现仍有待提升。远场语音识别、高噪音环境、多人同时说话等场景下,识别准确率仍然面临挑战。这些场景中,语音信号容易受到环境干扰,导致特征提取困难,影响最终的识别效果。
音元系统7 天前
语音识别·语音合成·输入法·语音分析·语音系统
韵母的一种可能的音位归纳这篇短文想讨论的,不是普通话韵母怎么拼写,而是如果把韵母重新整理成一套更紧的系统,能不能从中看出一种较为整齐的音位归纳。
开开心心就好7 天前
人工智能·pdf·音视频·语音识别·媒体·测试覆盖率·威胁分析
一键隐藏桌面图标任务栏的实用工具软件介绍AutoDesktop是一个专门管理桌面图标显示与隐藏的小工具。它的作用很简单:一键把桌面上乱七八糟的图标和底部的任务栏全都藏起来,还你一个干干净净的桌面。
Lucas_coding7 天前
人工智能·语音识别·xcode
【语音相关】FunASR 实时流式语音识别之paraformer-zh-streaming提示: 跳过原理快速查看完整代码请直接跳转到第四节FunASR 是阿里巴巴达摩院开源的语音识别工具包,旨在 bridging 学术研究与工业应用之间的鸿沟。它基于 PyTorch 构建,提供从模型训练到推理部署的完整解决方案。
音元系统7 天前
人工智能·分类·数据挖掘·语音识别·语音合成·语音分析·语音系统
按韵基分类的韵母分类法与汉语拼音方案关系说明这份说明只想说明一件事:我在整理现代通用汉语韵母时,做出了一张按“韵基”分类的韵母分类表。把这张表与《汉语拼音方案》的韵母系统进行对照后,我发现,两者在主体分类框架上是高度一致的。为了避免“韵母分类法”这个名称过于笼统,本文把这套方法明确称为“按韵基分类的韵母分类法”。
LaughingZhu8 天前
数据库·人工智能·经验分享·神经网络·chatgpt·语音识别
Product Hunt 每日热榜 | 2026-04-03标语:将你的提示语音输入到Claude Code中。介绍:语音模式让你可以与Claude进行自然的、无需手动操作的对话——只需说出你的问题,便能立即听到回应。你可以自由切换语音和文本输入,选择免提模式或按话筒说话,无论是在多任务处理、学习还是随时随地进行头脑风暴时,都能保持高效。
juyou51188 天前
大数据·人工智能·科技·ar·语音识别
清明踏青亲子研学升温,AI+数字乡村技术破解体验与安全管控痛点2026年清明成为近年来“含娃量”最高的小长假,春假与清明假期叠加,亲子踏青研学成为出行主流,据航旅纵横数据显示,4月1日至6日乘飞机出游的乘客中,12岁以下儿童票量同比增长1倍,13至18岁青少年票量同比增长1.3倍,兼具亲子属性、研学价值与踏青特色的乡村研学、花卉研学成为亲子家庭首选。但CSDN平台技术开发者、乡村研学基地运营者反馈,当前清明踏青亲子研学面临“三重核心痛点”:体验形式单一,多为简单的踏青观光、科普讲解,缺乏沉浸式、互动性研学体验,难以满足青少年群体的学习与娱乐需求;安全管控薄弱,乡村研