技术栈
asr
aopstudio
8 天前
人工智能
·
语音识别
·
asr
ASR概念和术语学习指南(2):传统 ASR 系统的工作流程
如果你曾好奇"在现代端到端ASR系统普及之前,语音识别是怎么工作的?“,那么答案就藏在一个高度工程化的系统里。它不像今天的端到端模型那样"一键出文字”,而更像一座由四个车间组成的精密工厂:
未来之窗软件服务
12 天前
语音识别
·
asr
·
仙盟创梦ide
·
东方仙盟
幽冥大陆(七十五) MinGW编译 WISPER ASR源码fairyalliancewhisper——东方仙盟练气期
https://github.com/cyberwin/fairyalliancewhisperhttps://www.mingw-w64.org/
未来之窗软件服务
19 天前
运维
·
自动化
·
asr
·
东方仙盟
·
操作系统级别错误
幽冥大陆(五十五)ASR SetThreadInformation C语言识别到自动化软件
SetThreadInformation是 Windows 系统的一个内核相关 API,它的支持情况如下:
Luke Ewin
21 天前
人工智能
·
python
·
语音识别
·
fastapi
·
asr
·
funasr
基于FunASR开发的可私有化部署的语音转文字接口 | FunASR接口开发 | 语音识别接口私有化部署
点击观看视频讲解项目已经开源,国内可访问,国外可访问。如果觉得这个项目不错,不妨给作者一个 Star,谢谢,Thank you.
曦云沐
23 天前
人工智能
·
语音识别
·
asr
·
fun-asr-nano
轻量却强大:Fun-ASR-Nano-2512 语音识别模型上手指南
Fun-ASR-Nano-2512 是 FunASR 体系中的轻量级自动语音识别(ASR)模型,主打小体积、低延迟、易部署。本文将结合 FunASR 项目生态,带你快速了解该模型的定位、核心优势以及典型使用场景,帮助你在实际项目中高效落地语音识别能力。
johnny233
1 个月前
asr
ASR项目介绍
语音转文本ASR工具合集汇总过几个ASR项目或模型,本文继续汇总,并做简单介绍和部分初步实战。注:缺乏深入实战,和问题记录,请勿喷。
minhuan
1 个月前
人工智能
·
语音识别
·
tts
·
asr
·
语音大模型应用
大模型应用:完整语音交互闭环:TTS+ASR融合系统可视化场景实践.22
在文章开始之前,先简单释义说明一下,TTS即文本转语音,ASR即语音转文本,前面的章节我们仔细通俗的讲解了TTS和ASR的原理和各自应用场景,今天我们将两者结合在一起进行深度分析,首先我们需要考虑, 是什么样的场景需要TTS与ASR 的融合,回想我们打开手机的语音助手,说一句“查询明天的天气”,它能立刻识别我们的语音,此时手机的语音助手内部处理将我们的语音转文本,解析指令后得到答案,再通过文本转语音,然后用自然语音给我们反馈结果, 这看似简单的交互,背后正是TTS与ASR两大技术的融合魔力。
minhuan
1 个月前
whisper
·
asr
·
多模态模型
·
语音转文本应用
·
语音大模型应用
大模型应用:语音转文本(ASR)实践:OpenAI Whisper精准转录解析.21
前面我们详细介绍了文本转语音的细节和实践,今天我们继续探讨一下语音转文本(ASR),初次接触,OpenAI Whisper 是最易上手、效果最均衡的开源大模型,它无需复杂的专业知识,一行代码就能实现多语言语音转写,且在噪声、口音、多语言场景下的表现远优于传统 ASR。
未来之窗软件服务
1 个月前
运维
·
自动化
·
asr
·
仙盟创梦ide
·
东方仙盟
·
东方仙盟sdk
·
东方仙盟自动化
幽冥大陆(四十五)人工智能自动化交互系统ASR——东方仙盟筑基期
在当今数字化浪潮中,自动语音识别(ASR)技术宛如一颗璀璨的明珠,为众多应用场景带来了革命性的变革。通过在 C# 和浏览器中开发 ASR 应用,我们能够解锁诸多令人瞩目的可能性,为用户打造更加智能、便捷的交互体验。
阿杰学AI
1 个月前
人工智能
·
ai
·
语言模型
·
自然语言处理
·
语音识别
·
asr
·
自动语音识别
AI核心知识33——大语言模型之ASR(简洁且通俗易懂版)
ASR 是 Automatic Speech Recognition(自动语音识别)的缩写。在人工智能和大语言模型的生态系统中,ASR 的角色非常简单明确:它是 AI 的“耳朵”。
Luke Ewin
1 个月前
语音识别
·
asr
·
实时语音识别
·
通话语音质检
记录训练呼叫中心专有ASR模型过程
之前有做呼叫中心系统的公司找到过我,询问我如何提高语音识别模型在通话录音的转写准确率,我知道市面上开源的模型,一般都是使用通用数据训练的模型,对于电话场景就识别的不怎么准确,特别是通话中一般存储的录音为8k采样率的音频,并且通常有很大部分音频存在很严重的噪音,这也是导致最终识别不准的原因之一。因此,这里使用了大量的通话录音来训练,并且加入了其它更准确的数据集进行训练,有超过200小时的数据集,主要包含弱标注10万条数据,和强标注6万条数据,进行混合训练。 关于本文章的更详细内容可点击这里。 视频可在浏览器
witton
2 个月前
macos
·
asr
·
克隆
·
复制
·
迁移
·
恢复
·
restore
克隆整个macOS系统到新磁盘
笔者在VMWare虚拟机中安装了一个MacOS 10.15系统,VMware虚拟磁盘为160G,macOS中显示171.45G。随着使用时间的增长,虚拟磁盘占用的Windows的磁盘空间越来越大,导致使用挂起功能时,Windows的磁盘放不下了,但MacOS中的实际使用空间只有三分之一左右。于是就想重新建一个小点的虚拟磁盘,比如80G,然后把整个系统克隆过去。
Luke Ewin
2 个月前
人工智能
·
分布式
·
语音识别
·
asr
·
funasr
·
通话语音质检
·
区分说话人
内网私有化分布式集群部署语音识别接口
对于一些金融或者政府机构来说,数据安全十分重要,要求数据只能在内网中传输使用,不能走公网。因此需要一种可以不联网的情况下使用的ASR接口,方便给其它需要语音转写的项目去调用,而不需要调用云ASR接口,从传输层上杜绝了数据泄露风险发生。以及对于一些公司而言没有大量的资金去调用云ASR接口,需要自己组装服务器部署一套自己的ASR接口,减少资金投入。
从孑开始
3 个月前
人工智能
·
ai
·
c#
·
.net
·
私有化部署
·
语音识别
·
onnx
·
asr
·
moonshine
ManySpeech.MoonshineAsr 使用指南
ManySpeech.MoonshineAsr 是 ManySpeech 语音处理套件中一个专门用于moonshine 模型推理的语音识别组件,其使用 c# 开发,底层调用 Microsoft.ML.OnnxRuntime 对 onnx 模型进行解码。具备以下特点:
加油2019
3 个月前
llm
·
学习笔记
·
b站
·
asr
·
bilibili
ASR+LLM:B站学习视屏下载并生成学习笔记
bilibili当前有越来越多高质量的教学视频,但是B站上没有直接下载视频的按钮,以及视频资料不利于复现回归,所以最好整理成笔记方便后续回顾。本文介绍一种B站视频下载、音频提取、使用ASR将音频转成文字,并且利用LLM大语言模型将文本生成学习笔记。
星野云联AIoT技术洞察
3 个月前
whisper
·
语音识别
·
模型部署
·
tts
·
asr
·
嵌入式ai
·
naturalspeech3
2025年语音识别(ASR)与语音合成(TTS)技术趋势分析对比
面向开发者的实用指南:探索最新的ASR和TTS技术,助力构建高效的语音应用。随着人工智能的快速发展,语音识别(ASR)和语音合成(TTS)技术在多个领域得到了广泛应用。从智能助手到自动字幕生成,从有声读物到虚拟主播,语音技术正逐步改变人机交互的方式。
luoyayun361
3 个月前
whisper
·
pyside6
·
asr
PySide6调用OpenAI的Whisper模型进行语音ASR转写
Whisper 是 OpenAI 开发的一款通用语音识别模型,采用大规模弱监督训练方法,支持多语言语音转录和翻译任务。该模型基于 Transformer 架构,具有高准确性和鲁棒性,适用于多种场景下的语音处理需求。OpenAI Whisper作为基于Transformer架构的端到端语音识别模型,其核心设计天然支持多语言处理。 官网:https://openai.com/zh-Hans-CN/index/whisper/ github:https://github.com/openai/whisper
从孑开始
3 个月前
ai
·
tts
·
asr
·
manyspeech
·
audiosep
ManySpeech —— 使用 C# 开发人工智能语音应用
ManySpeech(https://github.com/manyeyes/ManySpeech)是由 manyeyes 社区开发的一款基于 C# 的语音处理套件。该项目以优秀的开源模型为核心,依托 Microsoft.ML.OnnxRuntime 实现 ONNX 模型解码,致力于解决三大关键问题:
zhuweisky
4 个月前
内网穿透
·
asr
·
反向代理
·
暴露内网服务
TCP反向代理:将局域网内部的TCP/HTTP服务暴露在公网上
最近我们开发的一个APP,其中某个模块需要有ASR(语音转文字)的功能,对应的服务端是部署在阿里云上面的。ASR服务我们已经开发完成,但测试发现ASR在进行语音识别时,会消耗大量的资源(CPU、GPU、内存),特别是GPU,这样导致转换的延迟很大,为了能低延时运行ASR,我们为测试电脑专门配备了一块 NVIDIA RTX 3090的显卡,才能满足要求。
一如年少模样丶
4 个月前
openai
·
agent
·
asr
·
vllm
·
sglang
·
lmdeploy
·
gpt_server
GPT Server 文档
GPT Server是一个用于生产级部署LLMs、Embedding、Reranker、ASR、TTS、文生图、图片编辑和文生视频的开源框架。