语音识别

文火冰糖的硅基工坊21 分钟前
人工智能·语音识别·信号处理
[嵌入式系统-107]:语音识别的信号处理流程和软硬件职责语音识别的信号处理流程涉及从原始声波到可识别文本的转换,其软硬件分工明确,协同完成降噪、特征提取、模型推理等任务。以下是详细的信号处理流程及软硬件职责划分:
一品威客网3 小时前
人工智能·语音识别
语音控制 APP 开发:唤醒率 99% 的实现语音控制 APP 的核心体验依赖 “唤醒率”—— 用户发出指令后 APP 的响应准确率,99% 的唤醒率需突破环境噪音、口音差异、设备硬件等多重限制,开发需围绕 “技术选型 - 模型优化 - 场景适配” 构建闭环,关键实现路径可聚焦五点:
星野云联AIoT技术洞察5 小时前
whisper·语音识别·模型部署·tts·asr·嵌入式ai·naturalspeech3
2025年语音识别(ASR)与语音合成(TTS)技术趋势分析对比面向开发者的实用指南:探索最新的ASR和TTS技术,助力构建高效的语音应用。随着人工智能的快速发展,语音识别(ASR)和语音合成(TTS)技术在多个领域得到了广泛应用。从智能助手到自动字幕生成,从有声读物到虚拟主播,语音技术正逐步改变人机交互的方式。
liaomin4161005694 天前
人工智能·音视频·语音识别
transformers音频实战02-基于 Speech Commands 数据集的语音识别实战项目全流程Speech Commands 数据集是语音识别领域经典的开源数据集,包含 35 个类别(如数字、指令词等)的短语音片段,适合用于基础语音识别模型的开发与验证。本项目基于该数据集,聚焦数字 0-9 的识别任务,搭建并训练语音识别模型,学习从数据准备到模型部署的完整流程。
共绩算力4 天前
人工智能·whisper·语音识别·共绩算力
OpenAI Whisper 语音识别模型:技术与应用全面分析OpenAI 于2022年12月开源的 Whisper 模型,凭借 多语言支持(98种语言)、零样本迁移能力、噪声鲁棒性 等核心优势,迅速成为语音识别领域的“明星工具”。其在英语语音识别任务中接近人类水平(LibriSpeech测试清洁切分WER达2.5%),同时支持语音翻译、语言识别等多任务,无需针对特定场景微调即可直接应用 。
YEGE学AI算法5 天前
语音识别
流式推理 vs 训练模式详细对比在LSTM-based RNN编码器中,训练模式(Training Mode) 和流式推理模式(Streaming Inference Mode) 是两种完全不同的工作方式。理解它们的区别对于正确使用模型至关重要。
迈火7 天前
开发语言·人工智能·python·深度学习·计算机视觉·stable diffusion·语音识别
PuLID_ComfyUI:ComfyUI中的图像生成强化插件PuLID_ComfyUI为ComfyUI用户提供了强大的图像生成和风格融合能力,通过与ComfyUI的深度集成,使得图像生成过程更加灵活和可定制。其独特的基于多步闪电模型的处理方式,在图像细节增强、色彩均匀度提升等方面表现出色,能够满足用户在艺术创作、设计等多个领域对图像质量和风格控制的高要求。丰富的参数配置和不同的节点功能,让用户可以根据具体需求进行精细调整,但同时也需要用户对图像生成原理和相关参数有一定的了解,以便充分发挥其优势。总的来说,PuLID_ComfyUI是一款为专业用户和对图像生成有较高
人工智能技术派7 天前
人工智能·语言模型·whisper·语音识别
Whisper推理源码解读Whisper是一个由OpenAI开发的自动语音识别(ASR)系统,在多语言环境和嘈杂背景下的语音识别任务中表现出色。它具有如下特点:
会开花的二叉树7 天前
c++·分布式·语音识别
C++分布式语音识别服务实践最近基于 C++ 实现了一个分布式语音识别子服务,核心目标是提供高可用的 RPC 接口,支持客户端上传 PCM 音频文件并返回识别结果。技术栈选型如下:
人工智能技术派9 天前
人工智能·语言模型·语音识别
LTU-AS:一种具备音频感知、识别、理解的大模型架构人类生活在一个多样化的音频信号环境中,包括语音和各种非语音声音。人可以准确辨识、解释和整合这些语音和非语音音频元素,以及深刻理解它们之间的关系。无所不能的人工智能也应该具备这样的能力!
三天不学习11 天前
百度·uni-app·语音识别
uniapp集成语音识别与图片识别集成方案【百度智能云】随着人工智能技术的普及,语音和图像识别已经成为现代应用的常见功能。uniapp作为跨端开发框架,配合百度AI开放平台的能力,可以快速实现这些智能功能。本文将分别介绍语音识别和图片识别的完整集成方案。
学习是生活的调味剂11 天前
人工智能·whisper·语音识别
PEFT实战LoRA微调OpenAI Whisper 中文语音识别OpenAI 的 Whisper 模型是自动语音识别系统。拥有以下特点大规模训练数据: 使用了从互联网收集的 680,000 小时 多语言、多任务的带标签数据进行训练。
K24B;12 天前
人工智能·语言模型·语音识别·分割·多模态大语言模型
多模态大语言模型OISA目前存在的问题:本文贡献:其中Expression包含4种不同的模式(文字、声音、语音、图片),8种不同的组合形式(纯文字、纯语音、文字配声音、语音配声音、文字配图片、语音配图片、文字配声音和图片、语音配声音和图片)
YEGE学AI算法12 天前
人工智能·语音识别
语音识别的评价指标这是最常用、最核心的语音识别准确率评价指标。WER = (S + D + I) / NS (Substitutions): 替换错误的数量。例如,参考是“今天天气”,识别为“今天暖气”,这里“天”被替换为“暖”,S=1。
老坛程序员12 天前
人工智能·深度学习·机器学习·语音识别
开源项目Sherpa-onnx:全平台离线语音识别的轻量级高性能引擎如今,在大语言模型和云端服务盛行的背景下,离线、本地化的语音识别需求却日益突出。无论是嵌入式设备、边缘计算场景,还是对数据隐私要求严格的应用,都需要一个无需联网、低延迟且跨平台的语音识别工具。Sherpa-onnx 正是这样一个理想的解决方案。
YEGE学AI算法12 天前
人工智能·语音识别
语音识别-流式和非流式实现方式非流式的核心思想是 “纵观全局,优化决策”。特征提取与整段输入:声学模型(关键区别所在):解码与优化:
ai智能获客_狐狐12 天前
人工智能·算法·自然语言处理·架构·语音识别
智能外呼产品架构组成智能外呼的底层架构由语音识别(ASR)、自然语言处理(NLP)、对话管理(DM)和文本生成(TTS)四大技术模块组成。ASR将客户语音实时转译为文本,NLP分析语义并提取关键意图,DM基于上下文动态调整对话策略,TTS则将回复转化为拟人化语音。这种模块化设计确保系统能灵活应对复杂场景,例如处理客户投诉时的情绪波动,或快速识别潜在商机。
一条数据库12 天前
人工智能·自然语言处理·语音识别
中文粤语(广州)语音语料库:6219条高质量语音数据助力粤语语音识别与自然语言处理研究随着人工智能技术的快速发展,语音识别和自然语言处理已成为现代智能系统的核心技术。然而,对于粤语这一重要的汉语方言,高质量的语音语料库资源相对稀缺,这严重制约了粤语语音识别技术的发展和应用。粤语作为中国南方地区的主要方言,拥有超过7000万的使用者,在粤港澳大湾区、海外华人社区以及国际贸易中发挥着重要作用。因此,构建高质量的粤语语音语料库对于推动粤语语音技术发展、促进区域经济文化交流、以及保护语言多样性具有重要的学术价值和现实意义。
十年一梦惊觉醒13 天前
人工智能·语音识别·freeswitch
freeswitch集成离线语音识别funasr教程只记录流程和重点环节,不记录详细代码前面记录过freeswitch对接阿里的NlsSdkCpp3.X实现语音质检功能,NlsSdkCpp3.X服务是在线服务,费用可能对用户造成一定压力。所以本次记录下freeswitch对接阿里的离线语音识别funasr,通过对接funasr可以实现语音质检、智能客服实时语音交互等功能(打断、静音检测、识别修改等)。以下纪录本次集成过程,如有商务合作可主页联系,提供freeswitch的开发和各类asr、tts产品开发以及完整呼叫中心产品(可二次开发扩展)
J心流13 天前
人工智能·语音识别
四川话ASR-微调-语音识别-Paraformer-Large本项目基于阿里巴巴达摩院的 iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch 预训练模型,使用220小时的高质量四川话数据进行微调,专门针对四川方言语音识别任务进行优化。