语音识别

lqqjuly9 小时前
人工智能·深度学习·语音识别
语音识别:隐马尔可夫模型、深度学习与序列转导语音识别的核心问题是:给定声学观测序列 O=(o1,o2,…,oT)O = (o_1, o_2, \dots, o_T)O=(o1,o2,…,oT),找到最可能的词序列 W∗=(w1,w2,…,wM)W^* = (w_1, w_2, \dots, w_M)W∗=(w1,w2,…,wM)。
云樱梦海10 小时前
人工智能·开源·语音识别
FunASR:阿里达摩院开源的工业级语音识别工具包(4 款模型 + Gradio 可视化)还在为 FunASR 配 Python 环境、装 PyTorch、下 4GB 模型而头秃?把整个工具链打包到 U 盘里,双击 FunASR.bat 就能跑——本文带你 5 分钟把一个本地语音转文字服务跑起来。
2601_9583529010 小时前
人工智能·语音识别·硬件开发·音频处理模块·消除回音
双麦双波束独立拾音:A-59F 让智能工牌与翻译设备“听清每一个方向”在普通通话设备中,我们通常希望麦克风“全向”拾取所有声音。但在某些专业场景下,恰恰相反:智能工牌:佩戴者需要与前方客户交谈,同时也要清晰记录自己说的话,两者不能混在一起。
searchforAI11 小时前
人工智能·笔记·学习·ai·音视频·语音识别·网盘
网盘视频转文字后,如何高效做笔记并长期归档?如果你已经用过视频转文字功能,大概率会有一种感觉:转文字这一步,其实已经不难了。无论是网盘内置的「简单听记」,还是 AI 看、分段总结、AI 笔记,在把视频内容变成文字这件事上,百度网盘本身已经提供了一套相当成熟的方案。
古方路杰出青年12 小时前
人工智能·语音识别
语音探秘:从波形到频谱,拆解清音、浊音、爆破音的声学DNA咱们说话的声音听起来浑然一体,但在语音信号处理的视角下,每一个音素都有自己独特的“时频签名”。你可能好奇,大脑是怎么在几十毫秒内准确分辨出/p/和/b/、/s/和/z/的?秘密就藏在它们的时域波形和频域能量分布里。今天这篇硬核科普,就带你扒开声波的表面,看看清音、浊音与爆破音在时间轴和频谱图上究竟留下了哪些不可伪造的生理-声学特征。
searchforAI13 小时前
人工智能·笔记·gpt·ai·音视频·语音识别·ppt
怎么把视频里的PPT提取出来?视频转图文笔记完整方案做技术学习的人都遇到过这个问题:一个讲座或课程视频,讲师的PPT信息量很大,但视频不能下载,自己截图截了几十张,整理起来完全乱了,还漏了一堆关键内容。
智慧景区与市集主理人3 天前
人工智能·科技·语音识别
巨有科技景区智能导览告别传统讲解,打造沉浸式智慧游览体验导览讲解是景区文旅服务的核心载体,也是传递景区文化、提升游玩质感的关键环节。目前多数景区仍依赖人工导游、静态指示牌、固定语音播报等传统模式,存在讲解成本高、内容单一、覆盖不全、体验生硬等问题。人工导游资源有限、收费高昂,普通游客难以享受专业讲解;传统导览设备老旧、操作繁琐,无法适配新时代游客游玩需求。
feifeigo1233 天前
人工智能·语音识别·xcode
基于隐马尔可夫模型(HMM)的孤立词语音识别系统HMM模型参数:三个基本问题:参考代码 基于hmm的语音孤立词识别系统 www.youwenfan.com/contentcsv/79135.html
2601_958352903 天前
语音识别·硬件开发·ai降噪·音频处理模块
AP-0316 语音模块实测效果与能力边界展示在搭建智能家居系统时,我们往往容易陷入对灯光颜色、屏幕分辨率或网络带宽的过度关注,却忽略了最基础也最关键的一环:语音交互的实际体验。很多开发者在实验室环境下调试完美的语音模块,一旦放到真实的家庭环境中——伴随着电视背景音、厨房抽油烟机的轰鸣或是远处街道的嘈杂声——识别率便断崖式下跌。用户不得不提高音量重复指令,甚至放弃语音控制回归物理开关,这不仅破坏了智能生活的便捷初衷,更直接影响了产品的口碑与复购率。
Luke Ewin3 天前
人工智能·语音识别·funasr·实时语音识别·fun-asr
从零开始部署Fun-ASR-Nano实时语音识别并区分说话人教程 | 私有化部署开源的实时语音转写项目在会议场景中,我们通常需要做会议纪要,并且最好是实时会议纪要,也就是领导一边讲话,系统应该一边出文字,同时可以做到区分说话人,并且是无需提前注册声纹信息,使用SPK标识。
王文?问3 天前
前端·游戏·语音识别
ESP32-S3 实战教程:本地语音识别控制 Web 塔防游戏,从固件到前端完整跑通这篇文章记录一个完整的 ESP32-S3 实战项目:用 ESP32-S3 在本地识别语音命令,然后通过 WebSocket 把命令发送给电脑端的 FastAPI 服务,最后在 Web 页面上实时显示塔防游戏状态。
瓷tun3 天前
语音识别·asr·qwen3·星图gpu
小白也能懂:Qwen3-ASR-0.6B语音识别入门教程你有没有试过把一段会议录音、课堂讲解或采访音频,几秒钟就变成清晰准确的文字?不是靠手动听写,也不是依赖昂贵的商业服务——而是一个开源模型,装在你的电脑上就能跑,连显卡都不用太强。今天要带大家认识的,就是通义实验室最新发布的轻量级语音识别利器:Qwen3-ASR-0.6B。
杜连涛3 天前
whisper·语音识别·ai应用·多语言处理
5分钟部署Whisper语音识别:多语言大模型一键启动Web服务你有没有遇到过这样的场景?一段会议录音需要整理成文字,但手动听写耗时又容易出错;或者收到一段外语视频,想快速了解内容却找不到翻译工具。现在,这些问题都可以通过一个简单的Web服务解决——基于OpenAI Whisper large-v3的多语言语音识别系统。
胡耀超3 天前
语音识别·funasr·语音转文字·sherpa-onnx·声纹鉴定·声纹比对·说话人识别
告别ModelScope魔搭联网依赖!sherpa-onnx + SenseVoice 完全离线语音识别部署指南(2026版,离线语音识别、声纹鉴定、sherpa-onnx、SenseVoice)关键词:离线语音识别、声纹鉴定、sherpa-onnx、SenseVoice、FunASR、ModelScope魔搭社区、Kaldi、语音转文字、声纹比对、说话人识别
唯创知音3 天前
语音识别·离线语音识别芯片·理疗仪语音控制芯片选型
理疗仪语音控制芯片选型:离线语音识别模块方案对比理疗仪上新增语音控制功能,很多工程师第一反应是"有必要吗"。如果你给一个腰部按摩仪或者颈椎理疗仪的厂家提语音方案,他们大概率会说"用户按按键就行,没必要加语音"。但实际上往下游走一圈就会发现,理疗产品的终端用户群体里,老年人占了很大比例。视力下降、手指不灵活、趴着治疗时根本看不到面板——这些场景下,按键操作的门槛远比想象的高。
憨波个3 天前
人工智能·深度学习·transformer·语音识别
【语音识别】Conformer: Convolution-augmented Transformer for Speech Recognition本文是阅读论文《Conformer: Convolution-augmented Transformer for Speech Recognition》[1] 的笔记。Transformer 的自注意力能建模长程依赖,但对局部结构(如频谱的连续帧)建模能力一般。CNN 擅长局部建模,但感受野有限,长程依赖要靠堆叠很多层。所以 Conformer(Convolution + Transformer) 把两者结合,用 Transformer 做全局建模,用卷积做局部建模,从而更适配语音信号的时间局部性和长程依
程序员一只长毛橘3 天前
人工智能·语音识别
高并发直接拉满!Qwen3-ASR 搭配 vLLM 实现高性能语音识别想让开源语音识别扛住高并发?Qwen3-ASR + vLLM 是最优解!本文不讲虚的,直接给部署脚本、优化参数与压测数据,看完就能搭建低延迟、高可用的 ASR 服务,大幅提升业务承载能力。
dualven_in_csdn3 天前
人工智能·语音识别
【语音会议】AI语音识别与摘要生成https://blog.csdn.net/weixin_33737134/article/details/159869555
2601_958352904 天前
人工智能·语音识别·硬件开发·回音消除·音频处理模块
AP-0316语音处理模组:适配音频设备的技术优势分析AP-0316是一款基于DSP架构的语音处理模组,集成了AI降噪(AIENC)、全双工回声消除(AEC)、USB音频、I2S数字音频、模拟音频输入输出以及3W单声道数字功放。该模组在适配不同音频设备时,具备若干基于硬件设计和固件配置的技术特点。以下依据规格书(Rev 1.0)内容,对其优势进行客观描述。
天上路人4 天前
ide·人工智能·macos·语音识别·xcode
AI 降噪不是“凭空复原语音”,而是在“已有语音信息”的基础上进行增强。很多市场宣传把 AI ENC、AEC 描述成一种“万能净化器”,仿佛无论环境多恶劣,都能把人声完美剥离出来。但从声学与信号处理的本质来看,这其实是一种典型误解。