asr

曦云沐2 天前
人工智能·语音识别·asr·fun-asr-nano
轻量却强大:Fun-ASR-Nano-2512 语音识别模型上手指南Fun-ASR-Nano-2512 是 FunASR 体系中的轻量级自动语音识别(ASR)模型,主打小体积、低延迟、易部署。本文将结合 FunASR 项目生态,带你快速了解该模型的定位、核心优势以及典型使用场景,帮助你在实际项目中高效落地语音识别能力。
johnny2336 天前
asr
ASR项目介绍语音转文本ASR工具合集汇总过几个ASR项目或模型,本文继续汇总,并做简单介绍和部分初步实战。注:缺乏深入实战,和问题记录,请勿喷。
minhuan6 天前
人工智能·语音识别·tts·asr·语音大模型应用
大模型应用:完整语音交互闭环:TTS+ASR融合系统可视化场景实践.22在文章开始之前,先简单释义说明一下,TTS即文本转语音,ASR即语音转文本,前面的章节我们仔细通俗的讲解了TTS和ASR的原理和各自应用场景,今天我们将两者结合在一起进行深度分析,首先我们需要考虑, 是什么样的场景需要TTS与ASR 的融合,回想我们打开手机的语音助手,说一句“查询明天的天气”,它能立刻识别我们的语音,此时手机的语音助手内部处理将我们的语音转文本,解析指令后得到答案,再通过文本转语音,然后用自然语音给我们反馈结果, 这看似简单的交互,背后正是TTS与ASR两大技术的融合魔力。
minhuan7 天前
whisper·asr·多模态模型·语音转文本应用·语音大模型应用
大模型应用:语音转文本(ASR)实践:OpenAI Whisper精准转录解析.21前面我们详细介绍了文本转语音的细节和实践,今天我们继续探讨一下语音转文本(ASR),初次接触,OpenAI Whisper 是最易上手、效果最均衡的开源大模型,它无需复杂的专业知识,一行代码就能实现多语言语音转写,且在噪声、口音、多语言场景下的表现远优于传统 ASR。
未来之窗软件服务8 天前
运维·自动化·asr·仙盟创梦ide·东方仙盟·东方仙盟sdk·东方仙盟自动化
幽冥大陆(四十五)人工智能自动化交互系统ASR——东方仙盟筑基期在当今数字化浪潮中,自动语音识别(ASR)技术宛如一颗璀璨的明珠,为众多应用场景带来了革命性的变革。通过在 C# 和浏览器中开发 ASR 应用,我们能够解锁诸多令人瞩目的可能性,为用户打造更加智能、便捷的交互体验。
阿杰学AI14 天前
人工智能·ai·语言模型·自然语言处理·语音识别·asr·自动语音识别
AI核心知识33——大语言模型之ASR(简洁且通俗易懂版)ASR 是 Automatic Speech Recognition(自动语音识别)的缩写。在人工智能和大语言模型的生态系统中,ASR 的角色非常简单明确:它是 AI 的“耳朵”。
Luke Ewin16 天前
语音识别·asr·实时语音识别·通话语音质检
记录训练呼叫中心专有ASR模型过程之前有做呼叫中心系统的公司找到过我,询问我如何提高语音识别模型在通话录音的转写准确率,我知道市面上开源的模型,一般都是使用通用数据训练的模型,对于电话场景就识别的不怎么准确,特别是通话中一般存储的录音为8k采样率的音频,并且通常有很大部分音频存在很严重的噪音,这也是导致最终识别不准的原因之一。因此,这里使用了大量的通话录音来训练,并且加入了其它更准确的数据集进行训练,有超过200小时的数据集,主要包含弱标注10万条数据,和强标注6万条数据,进行混合训练。 关于本文章的更详细内容可点击这里。 视频可在浏览器
witton1 个月前
macos·asr·克隆·复制·迁移·恢复·restore
克隆整个macOS系统到新磁盘笔者在VMWare虚拟机中安装了一个MacOS 10.15系统,VMware虚拟磁盘为160G,macOS中显示171.45G。随着使用时间的增长,虚拟磁盘占用的Windows的磁盘空间越来越大,导致使用挂起功能时,Windows的磁盘放不下了,但MacOS中的实际使用空间只有三分之一左右。于是就想重新建一个小点的虚拟磁盘,比如80G,然后把整个系统克隆过去。
Luke Ewin1 个月前
人工智能·分布式·语音识别·asr·funasr·通话语音质检·区分说话人
内网私有化分布式集群部署语音识别接口对于一些金融或者政府机构来说,数据安全十分重要,要求数据只能在内网中传输使用,不能走公网。因此需要一种可以不联网的情况下使用的ASR接口,方便给其它需要语音转写的项目去调用,而不需要调用云ASR接口,从传输层上杜绝了数据泄露风险发生。以及对于一些公司而言没有大量的资金去调用云ASR接口,需要自己组装服务器部署一套自己的ASR接口,减少资金投入。
从孑开始2 个月前
人工智能·ai·c#·.net·私有化部署·语音识别·onnx·asr·moonshine
ManySpeech.MoonshineAsr 使用指南ManySpeech.MoonshineAsr 是 ManySpeech 语音处理套件中一个专门用于moonshine 模型推理的语音识别组件,其使用 c# 开发,底层调用 Microsoft.ML.OnnxRuntime 对 onnx 模型进行解码。具备以下特点:
加油20192 个月前
llm·学习笔记·b站·asr·bilibili
ASR+LLM:B站学习视屏下载并生成学习笔记bilibili当前有越来越多高质量的教学视频,但是B站上没有直接下载视频的按钮,以及视频资料不利于复现回归,所以最好整理成笔记方便后续回顾。本文介绍一种B站视频下载、音频提取、使用ASR将音频转成文字,并且利用LLM大语言模型将文本生成学习笔记。
星野云联AIoT技术洞察2 个月前
whisper·语音识别·模型部署·tts·asr·嵌入式ai·naturalspeech3
2025年语音识别(ASR)与语音合成(TTS)技术趋势分析对比面向开发者的实用指南:探索最新的ASR和TTS技术,助力构建高效的语音应用。随着人工智能的快速发展,语音识别(ASR)和语音合成(TTS)技术在多个领域得到了广泛应用。从智能助手到自动字幕生成,从有声读物到虚拟主播,语音技术正逐步改变人机交互的方式。
luoyayun3613 个月前
whisper·pyside6·asr
PySide6调用OpenAI的Whisper模型进行语音ASR转写Whisper 是 OpenAI 开发的一款通用语音识别模型,采用大规模弱监督训练方法,支持多语言语音转录和翻译任务。该模型基于 Transformer 架构,具有高准确性和鲁棒性,适用于多种场景下的语音处理需求。OpenAI Whisper作为基于Transformer架构的端到端语音识别模型,其核心设计天然支持多语言处理。 官网:https://openai.com/zh-Hans-CN/index/whisper/ github:https://github.com/openai/whisper
从孑开始3 个月前
ai·tts·asr·manyspeech·audiosep
ManySpeech —— 使用 C# 开发人工智能语音应用ManySpeech(https://github.com/manyeyes/ManySpeech)是由 manyeyes 社区开发的一款基于 C# 的语音处理套件。该项目以优秀的开源模型为核心,依托 Microsoft.ML.OnnxRuntime 实现 ONNX 模型解码,致力于解决三大关键问题:
zhuweisky3 个月前
内网穿透·asr·反向代理·暴露内网服务
TCP反向代理:将局域网内部的TCP/HTTP服务暴露在公网上最近我们开发的一个APP,其中某个模块需要有ASR(语音转文字)的功能,对应的服务端是部署在阿里云上面的。ASR服务我们已经开发完成,但测试发现ASR在进行语音识别时,会消耗大量的资源(CPU、GPU、内存),特别是GPU,这样导致转换的延迟很大,为了能低延时运行ASR,我们为测试电脑专门配备了一块 NVIDIA RTX 3090的显卡,才能满足要求。
一如年少模样丶3 个月前
openai·agent·asr·vllm·sglang·lmdeploy·gpt_server
GPT Server 文档GPT Server是一个用于生产级部署LLMs、Embedding、Reranker、ASR、TTS、文生图、图片编辑和文生视频的开源框架。
Luke Ewin3 个月前
java·人工智能·语音识别·asr·funasr·paraformer·sensevoice
FunASR的Java实现Paraformer实时语音识别 | 一款无需联网的本地实时字幕软件我们在看直播时,没有视频字幕,可能看惯了视频字幕,来到直播中缺少字幕会感觉不习惯,特别是对于听力障碍的人群,只能依赖于字幕,那么这个软件可以解决直播,在线会议等场景中无字幕的情况。此外,我们还可以用于人机交互中,以及智能呼叫中心系统中(实时语音质检)。因此,开发一款可以运行在普通CPU中的实时字幕软件很有必要。
浅醉樱花雨3 个月前
人工智能·python·语音识别·asr·vosk
vosk语音识别实战Vosk 是一个由 Alpha Cephei 团队开发的开源离线语音识别(ASR)工具包。它的核心优势在于完全离线运行和轻量级,使其非常适合在资源受限的环境、注重隐私的场景或需要低延迟的应用中使用。
胡耀超4 个月前
python·深度学习·ffmpeg·音视频·语音识别·多模态·asr
DataOceanAI Dolphin(ffmpeg音频转化教程) 多语言(中国方言)语音识别系统部署与应用指南官方地址:DataoceanAI-DolphinDataOceanAI Dolphin 是由清华大学与DataOceanAI联合开发的多语言自动语音识别(ASR, Automatic Speech Recognition)系统。该系统专门针对东方语言设计,支持40种亚洲语言和22种中文方言,基于超过21万小时的训练数据构建。系统采用Transformer架构,提供了从140M到1.67B参数规模的多个模型版本。
木亦汐丫7 个月前
语音识别·asr·端到端·流式·nar非自回归·分块注意力·mask-ctc
【ASR】基于分块非自回归模型的流式端到端语音识别论文地址:https://arxiv.org/abs/2107.09428非自回归 (NAR) 模型在语音处理中越来越受到关注。 凭借最新的基于注意力的自动语音识别 (ASR) 结构,与自回归 (AR) 模型相比,NAR 可以在仅精度略有下降的情况下实现有前景的实时因子 (RTF) 提升。 然而,识别推理需要等待完整语音话语的完成,这限制了其在低延迟场景中的应用。 为了解决这个问题,我们提出了一种新颖的端到端流式 NAR 语音识别系统,该系统结合了分块注意力和带有掩码预测 (Mask-CTC) NAR 的