语音识别

三天不学习1 天前
百度·uni-app·语音识别
uniapp集成语音识别与图片识别集成方案【百度智能云】随着人工智能技术的普及,语音和图像识别已经成为现代应用的常见功能。uniapp作为跨端开发框架,配合百度AI开放平台的能力,可以快速实现这些智能功能。本文将分别介绍语音识别和图片识别的完整集成方案。
学习是生活的调味剂2 天前
人工智能·whisper·语音识别
PEFT实战LoRA微调OpenAI Whisper 中文语音识别OpenAI 的 Whisper 模型是自动语音识别系统。拥有以下特点大规模训练数据: 使用了从互联网收集的 680,000 小时 多语言、多任务的带标签数据进行训练。
K24B;2 天前
人工智能·语言模型·语音识别·分割·多模态大语言模型
多模态大语言模型OISA目前存在的问题:本文贡献:其中Expression包含4种不同的模式(文字、声音、语音、图片),8种不同的组合形式(纯文字、纯语音、文字配声音、语音配声音、文字配图片、语音配图片、文字配声音和图片、语音配声音和图片)
YEGE学AI算法3 天前
人工智能·语音识别
语音识别的评价指标这是最常用、最核心的语音识别准确率评价指标。WER = (S + D + I) / NS (Substitutions): 替换错误的数量。例如,参考是“今天天气”,识别为“今天暖气”,这里“天”被替换为“暖”,S=1。
老坛程序员3 天前
人工智能·深度学习·机器学习·语音识别
开源项目Sherpa-onnx:全平台离线语音识别的轻量级高性能引擎如今,在大语言模型和云端服务盛行的背景下,离线、本地化的语音识别需求却日益突出。无论是嵌入式设备、边缘计算场景,还是对数据隐私要求严格的应用,都需要一个无需联网、低延迟且跨平台的语音识别工具。Sherpa-onnx 正是这样一个理想的解决方案。
YEGE学AI算法3 天前
人工智能·语音识别
语音识别-流式和非流式实现方式非流式的核心思想是 “纵观全局,优化决策”。特征提取与整段输入:声学模型(关键区别所在):解码与优化:
ai智能获客_狐狐3 天前
人工智能·算法·自然语言处理·架构·语音识别
智能外呼产品架构组成智能外呼的底层架构由语音识别(ASR)、自然语言处理(NLP)、对话管理(DM)和文本生成(TTS)四大技术模块组成。ASR将客户语音实时转译为文本,NLP分析语义并提取关键意图,DM基于上下文动态调整对话策略,TTS则将回复转化为拟人化语音。这种模块化设计确保系统能灵活应对复杂场景,例如处理客户投诉时的情绪波动,或快速识别潜在商机。
一条数据库3 天前
人工智能·自然语言处理·语音识别
中文粤语(广州)语音语料库:6219条高质量语音数据助力粤语语音识别与自然语言处理研究随着人工智能技术的快速发展,语音识别和自然语言处理已成为现代智能系统的核心技术。然而,对于粤语这一重要的汉语方言,高质量的语音语料库资源相对稀缺,这严重制约了粤语语音识别技术的发展和应用。粤语作为中国南方地区的主要方言,拥有超过7000万的使用者,在粤港澳大湾区、海外华人社区以及国际贸易中发挥着重要作用。因此,构建高质量的粤语语音语料库对于推动粤语语音技术发展、促进区域经济文化交流、以及保护语言多样性具有重要的学术价值和现实意义。
十年一梦惊觉醒4 天前
人工智能·语音识别·freeswitch
freeswitch集成离线语音识别funasr教程只记录流程和重点环节,不记录详细代码前面记录过freeswitch对接阿里的NlsSdkCpp3.X实现语音质检功能,NlsSdkCpp3.X服务是在线服务,费用可能对用户造成一定压力。所以本次记录下freeswitch对接阿里的离线语音识别funasr,通过对接funasr可以实现语音质检、智能客服实时语音交互等功能(打断、静音检测、识别修改等)。以下纪录本次集成过程,如有商务合作可主页联系,提供freeswitch的开发和各类asr、tts产品开发以及完整呼叫中心产品(可二次开发扩展)
J心流4 天前
人工智能·语音识别
四川话ASR-微调-语音识别-Paraformer-Large本项目基于阿里巴巴达摩院的 iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch 预训练模型,使用220小时的高质量四川话数据进行微调,专门针对四川方言语音识别任务进行优化。
hunteritself5 天前
人工智能·ios·chatgpt·语音识别·iphone
DeepSeek V3.1-Terminus、阿里 Qwen3-Max、ChatGPT Pulse 同周登场!| AI Weekly 9.22-9.28卷,卷起来了!1️⃣ 🚀 DeepSeek 发布 V3.1-Terminus :Agent 性能提升 28%,HLE 测试跃升全球第三,仅次于 Grok 4 和 GPT-5,SimpleQA 准确率达 96.8%。
嘀咕博客5 天前
人工智能·音视频·语音识别·ai工具
Kimi-Audio:Kimi开源的通用音频基础模型,支持语音识别、音频理解等多种任务本文转载自:https://www.hello123.com/kimi-audio**一、🎧 Kimi - Audio:给 AI 装上 "顺风耳",开源音频模型新王者来了!
柱子jason5 天前
物联网·智能家居·语音识别·语音模型·消息流·iot-tree
使用IOT-Tree消息流【语音识别】节点整合语音模型vosk实现语音输入到命令格式转换IOT-Tree Server是个开源物联网软件,可以作为组态软件成为自动化系统的上位软件。她提供了接入、数据组织管理、控制逻辑和人机交互多个方面的功能。IOT-Tree消息流功能是在规整接入各种设备数据之后,提供的功能块组合配置支持(直观快速),通过她你可以在大部分场合快速实现数据的处理——存储、转换、发送等。
qq7422349846 天前
python·whisper·语音识别
语音识别:PyAudio、SoundDevice、Vosk、openai-whisper、Argos-Translate、FunASR(Python)PyAudio 是 Python 中一个强大的跨平台音频 I/O 库。它基于 PortAudio 库(一个免费、跨平台、开源的音频 I/O 库),为 Python 提供了录制和播放音频流的接口。
cwll20097 天前
人工智能·whisper·语音识别
使用ffmpeg8.0的whisper模块语音识别2025年9月ffmpeg8.0发布,这个版本将whisper.cpp内置到了audio filter。最新版本的ffmpeg默认支持whisper模块。
小小ken7 天前
ffmpeg·whisper·语音识别
whisper-large-v3部署详细步骤,包括cpu和gpu方式,跟着做一次成功whisper就是一个语音识别的项目,具体细节自行百度了解即可。我这次部署的主要目的是简单测试粤语歌曲的歌词识别效果,之后再抽空做二次开发。讲实话,这些ai模型项目的部署文档大部分就是一坨屎,依赖模块只给出几个,其他模块要在运行代码时出错再一个个修复安装。更痛苦的是,有些是依赖于特定版本模块的,安装错了版本直接各种神奇报错,要一个个版本去试,或者到相应的github issues上面看看。
数据堂官方账号8 天前
人工智能·计算机视觉·大模型·数据集·语音识别·语音合成·多模态大模型
版权数据集上新 | 覆盖大模型、多模态大模型、语音识别、语音合成及计算机视觉等多领域近日,数据堂发布全新数据产品,覆盖多语种大模型预训练、多模态大模型、语音识别及计算机视觉等多个前沿方向。所有数据集经严格标注与质量控制,提供商业级使用授权且已获得科研使用许可,知识产权归属清晰可溯,可为企业及研发团队提供大规模、多样化、合规可靠的数据资源,有效助力大模型与AI技术迭代升级,赋能全球应用场景创新。
zzywxc7878 天前
人工智能·spring·金融·prompt·语音识别·xcode
AI 行业应用:AI 在金融、医疗、教育、制造业等领域的落地案例python运行java运行python运行python运行python运行python运行以上案例只是 AI 在各领域应用的一部分,随着技术的不断发展,AI 将在更多领域发挥更大的作用,为各行业带来更多的创新和变革。
王者鳜錸9 天前
java·vue·语音识别
方言普通话识别大模型,支持中英+202种方言识别当用户需要让 AI 理解合肥话的 “搞哄个”(做什么)、温州话的 “眙勿懂”(看不懂),或是潮汕话的 “食未”(吃了吗)时,传统语音识别模型往往陷入 “听声辨字” 的困境。我国境内分布着吴语、粤语、闽语等十大方言体系,仅你列出的方言就覆盖 34 个省份及地区,其语音差异体现在发音(如闽南语的入声)、词汇(如四川话 “巴适”)、语法(如粤语 “你走先”)等多个维度。
蒙帕智能运维11 天前
人工智能·机器人·语音识别
FunASR:面向产业落地的端到端语音识别系统在大模型重塑人工智能格局的今天,语音作为最自然的人机交互方式,其技术演进正从“能用”迈向“好用”。企业对语音识别系统提出了前所未有的综合要求:不仅要在复杂场景下保持高准确率,还需满足实时性、高并发与工程落地的严苛挑战。