技术栈
asr
从孑开始
8 天前
人工智能
·
语音识别
·
工具
·
asr
manyspeech-cli 语音识别命令行工具
manyspeech-cli 是一款免安装本地命令行语音识别工具,支持本地音频文件识别、麦克风实时流式识别等能力。提供交互模式与命令行模式两种使用方式,模型自动下载、离线推理、字幕生成全流程均可通过命令行一键完成。
shao918516
20 天前
ffmpeg
·
whisper
·
asr
·
mini-omni
·
自建语音服务器
第10章 Streaming(上):初级音频应用(1)——项目三:自建服务器的Mini-Omni实时语音聊天机器人
由于流式传输内容较多,因此将其分为初级音频应用、高级音频应用和视频应用三部分。本章音频应用部分包括自动语音识别技术(ASR),自建服务器的Mini-Omni模型的对话式聊天机器人,Groq与带自动语音检测功能的多模态Gradio应用,Mistral实现流式传输音频的魔力8号球。除了拆解音频应用,还会详细介绍并实战大模型库Whisper、Mini-Omni、Groq和Mistral。此外,本章还会详细讲解用到的其他技术:@ricky0123/vad-web实现语音活动检测功能,Groq高速大模型调用库,Li
iwgh
1 个月前
asr
·
paraformer
·
语音转写
·
stt
·
moonshine
·
oddasr
OddAsr更新:将默认模型从moonshine改回paraformer
前两天研究了一下Moonshine Voice,当时拿了几个简单的音频文件测试了一下,感觉效果还可以,所以我就开始将其整合到了OddASR项目里。
antzou
1 个月前
onnx
·
tts
·
asr
·
vad
·
paraformer
字幕视频合成
音频 + 背景图 + 字幕合成硬/软字幕 MP4 视频。基于 Eclipse RCP 技术框架开发,企业级应用的技术。 核心组件
antzou
1 个月前
人工智能
·
语音识别
·
onnx
·
asr
·
paraformer
语音识别 (ASR)
集成 Paraformer 模型,WAV 音频精准转写为带标点文本。基于 Eclipse RCP 技术框架开发,企业级应用的技术。 核心组件
Jay星晴
2 个月前
whisper
·
语音识别
·
asr
·
星图gpu
Whisper-large-v3语音识别效果对比:与Whisper v2/v1在中文长语音场景差异
你有没有遇到过这样的情况:录了一段20分钟的会议音频,想转成文字整理纪要,结果用老版本Whisper跑完发现错字连篇、人名全错、专业术语识别率低得离谱?我试过三次——第一次用v1,第二次换v2,第三次换成刚发布的large-v3,结果完全不一样。
诸神缄默不语
2 个月前
ai
·
prompt
·
提示词
·
提示工程
·
asr
·
语音转文字
·
会议纪要
自动写会议纪要:语音转文字→整理录音稿→生成会议纪要
诸神缄默不语-个人技术博文与视频目录专栏《Python自动化办公的192个实例项目》目录我感觉影响语音转文字效果最严重的其实是录音效果。 我本来还买了个录音笔,结果我发现录音效果还不如用手机,所以我就放弃了……
Luke Ewin
2 个月前
vue
·
springboot
·
语音识别
·
asr
·
asr数据集采集
·
asr方言数据集采集
ASR数据集采集系统 | ASR方言数据集采集系统 | ASR方言数据集采集系统 | 语音识别数据集采集系统
ASR数据集采集系统演示 | ASR方言数据集采集系统效果演示视频,点击这里访问 项目以及打包上传到我的百度网盘中 通过网盘分享的文件:ASR数据集采集系统 链接: https://pan.baidu.com/s/18IGnt6pzw2MBNIMyUIDPLg?pwd=9jaw 提取码: 9jaw
Together_CZ
3 个月前
llm
·
语音识别
·
多模态
·
自然语言
·
asr
·
技术报告
·
index-asr
Index-ASR Technical Report——Index-ASR 技术报告
这篇文章介绍了 Index-ASR,一个由哔哩哔哩团队开发的大规模、基于大语言模型(LLM)的自动语音识别(ASR)系统。其主要研究内容可概括为以下几点:
莽夫搞战术
3 个月前
语音识别
·
asr
【FireRedASR-AED】目前性能最好的开源中文ASR模型
[Paper] [Model] [Blog] [Demo] [modelscope]FireRedASR是一个开源的工业级自动语音识别(ASR)模型家族,支持普通话、中国方言和英语,在公共普通话ASR基准测试上达到了新的最先进水平(SOTA),同时还提供了出色的歌词识别能力。
云蝠呼叫大模型联络中心
4 个月前
系统架构
·
tts
·
asr
·
外呼系统
·
ai外呼
·
大模型呼叫
·
voiceagent
深度解析|云蝠智能大模型呼叫系统架构:神鹤双擎 + 暴风引擎,低延迟高并发解锁呼叫中心降本增效新路径
云蝠智能大模型呼叫系统是一款 AI 原生的大模型语音智能体,采用全栈自研的分层架构设计,区别于传统 "AI + 呼叫中心" 的简单叠加方案云蝠智能。核心架构分为五层协同架构(业务逻辑视角)与六层技术架构(技术实现视角),通过神鹤大模型双擎驱动与暴风引擎并行计算,实现毫秒级响应与复杂语义理解,构建端到端智能呼叫赋能体系。
新农仓
4 个月前
语音识别
·
gradio
·
asr
·
paraformer
5分钟部署Paraformer语音识别,离线转写带Gradio界面超简单
你是否遇到过这些场景:别再折腾了。今天带你用5分钟完成一套真正可用的本地语音识别系统——不联网、不依赖API、不担心数据泄露,上传音频→点击识别→秒出带标点的中文文本,全程在自己机器上跑完。
aopstudio
5 个月前
人工智能
·
语音识别
·
asr
ASR概念和术语学习指南(2):传统 ASR 系统的工作流程
如果你曾好奇"在现代端到端ASR系统普及之前,语音识别是怎么工作的?“,那么答案就藏在一个高度工程化的系统里。它不像今天的端到端模型那样"一键出文字”,而更像一座由四个车间组成的精密工厂:
未来之窗软件服务
5 个月前
语音识别
·
asr
·
仙盟创梦ide
·
东方仙盟
幽冥大陆(七十五) MinGW编译 WISPER ASR源码fairyalliancewhisper——东方仙盟练气期
https://github.com/cyberwin/fairyalliancewhisperhttps://www.mingw-w64.org/
未来之窗软件服务
5 个月前
运维
·
自动化
·
asr
·
东方仙盟
·
操作系统级别错误
幽冥大陆(五十五)ASR SetThreadInformation C语言识别到自动化软件
SetThreadInformation是 Windows 系统的一个内核相关 API,它的支持情况如下:
Luke Ewin
5 个月前
人工智能
·
python
·
语音识别
·
fastapi
·
asr
·
funasr
基于FunASR开发的可私有化部署的语音转文字接口 | FunASR接口开发 | 语音识别接口私有化部署
点击观看视频讲解项目已经开源,国内可访问,国外可访问。如果觉得这个项目不错,不妨给作者一个 Star,谢谢,Thank you.
曦云沐
5 个月前
人工智能
·
语音识别
·
asr
·
fun-asr-nano
轻量却强大:Fun-ASR-Nano-2512 语音识别模型上手指南
Fun-ASR-Nano-2512 是 FunASR 体系中的轻量级自动语音识别(ASR)模型,主打小体积、低延迟、易部署。本文将结合 FunASR 项目生态,带你快速了解该模型的定位、核心优势以及典型使用场景,帮助你在实际项目中高效落地语音识别能力。
johnny233
5 个月前
asr
ASR项目介绍
语音转文本ASR工具合集汇总过几个ASR项目或模型,本文继续汇总,并做简单介绍和部分初步实战。注:缺乏深入实战,和问题记录,请勿喷。
minhuan
5 个月前
人工智能
·
语音识别
·
tts
·
asr
·
语音大模型应用
大模型应用:完整语音交互闭环:TTS+ASR融合系统可视化场景实践.22
在文章开始之前,先简单释义说明一下,TTS即文本转语音,ASR即语音转文本,前面的章节我们仔细通俗的讲解了TTS和ASR的原理和各自应用场景,今天我们将两者结合在一起进行深度分析,首先我们需要考虑, 是什么样的场景需要TTS与ASR 的融合,回想我们打开手机的语音助手,说一句“查询明天的天气”,它能立刻识别我们的语音,此时手机的语音助手内部处理将我们的语音转文本,解析指令后得到答案,再通过文本转语音,然后用自然语音给我们反馈结果, 这看似简单的交互,背后正是TTS与ASR两大技术的融合魔力。
minhuan
5 个月前
whisper
·
asr
·
多模态模型
·
语音转文本应用
·
语音大模型应用
大模型应用:语音转文本(ASR)实践:OpenAI Whisper精准转录解析.21
前面我们详细介绍了文本转语音的细节和实践,今天我们继续探讨一下语音转文本(ASR),初次接触,OpenAI Whisper 是最易上手、效果最均衡的开源大模型,它无需复杂的专业知识,一行代码就能实现多语言语音转写,且在噪声、口音、多语言场景下的表现远优于传统 ASR。