技术栈
asr
云山雾村
5 天前
语音识别
·
asr
·
星图gpu
·
中文语音转文字
零基础也能用!科哥版Paraformer语音识别WebUI保姆级教程
你有没有过这些时刻:别折腾了。今天这篇教程,不讲模型原理、不跑训练代码、不配环境变量——从你双击浏览器图标开始,到完整识别出第一句中文,全程不超过5分钟。
瓷tun
11 天前
语音识别
·
asr
·
qwen3
·
星图gpu
小白也能懂:Qwen3-ASR-0.6B语音识别入门教程
你有没有试过把一段会议录音、课堂讲解或采访音频,几秒钟就变成清晰准确的文字?不是靠手动听写,也不是依赖昂贵的商业服务——而是一个开源模型,装在你的电脑上就能跑,连显卡都不用太强。今天要带大家认识的,就是通义实验室最新发布的轻量级语音识别利器:Qwen3-ASR-0.6B。
Luke Ewin
13 天前
人工智能
·
语音识别
·
asr
·
fun-asr
Fun-ASR-Nano实时语音识别并区分说话人 | FunASR | 开源实时语音识别模型
Fun-ASR-Nano是很好的开源的实时语音识别模型,可以使用FunASR运行,同时支持多种方言和国际语言,根据官方文档,支持客家话,吴语,赣语,四川话,河南话,天津话,北京话,东北话等,同时还支持英语,日语等国际语言。
siv77
14 天前
whisper
·
tts
·
asr
·
nmt
·
ai视频翻译
·
视频翻译架构
·
字幕压制
一站式 AI 视频翻译的技术架构:ASR → NMT → TTS → 字幕压制的全链路设计
做一套可落地的 AI 视频翻译系统,关键不是把 ASR、翻译、配音、字幕几个模型简单串起来,而是把“输入、音频切分、转写、说话人、翻译、合成、对齐、导出”做成一条稳定的数据管线。比较稳的架构可以拆成 7 层:输入层、ASR 层、说话人分离层、NMT 层、TTS 层、后处理层和任务编排层。
从孑开始
1 个月前
人工智能
·
语音识别
·
工具
·
asr
manyspeech-cli 语音识别命令行工具
manyspeech-cli 是一款免安装本地命令行语音识别工具,支持本地音频文件识别、麦克风实时流式识别等能力。提供交互模式与命令行模式两种使用方式,模型自动下载、离线推理、字幕生成全流程均可通过命令行一键完成。
shao918516
1 个月前
ffmpeg
·
whisper
·
asr
·
mini-omni
·
自建语音服务器
第10章 Streaming(上):初级音频应用(1)——项目三:自建服务器的Mini-Omni实时语音聊天机器人
由于流式传输内容较多,因此将其分为初级音频应用、高级音频应用和视频应用三部分。本章音频应用部分包括自动语音识别技术(ASR),自建服务器的Mini-Omni模型的对话式聊天机器人,Groq与带自动语音检测功能的多模态Gradio应用,Mistral实现流式传输音频的魔力8号球。除了拆解音频应用,还会详细介绍并实战大模型库Whisper、Mini-Omni、Groq和Mistral。此外,本章还会详细讲解用到的其他技术:@ricky0123/vad-web实现语音活动检测功能,Groq高速大模型调用库,Li
iwgh
2 个月前
asr
·
paraformer
·
语音转写
·
stt
·
moonshine
·
oddasr
OddAsr更新:将默认模型从moonshine改回paraformer
前两天研究了一下Moonshine Voice,当时拿了几个简单的音频文件测试了一下,感觉效果还可以,所以我就开始将其整合到了OddASR项目里。
antzou
2 个月前
onnx
·
tts
·
asr
·
vad
·
paraformer
字幕视频合成
音频 + 背景图 + 字幕合成硬/软字幕 MP4 视频。基于 Eclipse RCP 技术框架开发,企业级应用的技术。 核心组件
antzou
2 个月前
人工智能
·
语音识别
·
onnx
·
asr
·
paraformer
语音识别 (ASR)
集成 Paraformer 模型,WAV 音频精准转写为带标点文本。基于 Eclipse RCP 技术框架开发,企业级应用的技术。 核心组件
Jay星晴
2 个月前
whisper
·
语音识别
·
asr
·
星图gpu
Whisper-large-v3语音识别效果对比:与Whisper v2/v1在中文长语音场景差异
你有没有遇到过这样的情况:录了一段20分钟的会议音频,想转成文字整理纪要,结果用老版本Whisper跑完发现错字连篇、人名全错、专业术语识别率低得离谱?我试过三次——第一次用v1,第二次换v2,第三次换成刚发布的large-v3,结果完全不一样。
诸神缄默不语
3 个月前
ai
·
prompt
·
提示词
·
提示工程
·
asr
·
语音转文字
·
会议纪要
自动写会议纪要:语音转文字→整理录音稿→生成会议纪要
诸神缄默不语-个人技术博文与视频目录专栏《Python自动化办公的192个实例项目》目录我感觉影响语音转文字效果最严重的其实是录音效果。 我本来还买了个录音笔,结果我发现录音效果还不如用手机,所以我就放弃了……
Luke Ewin
3 个月前
vue
·
springboot
·
语音识别
·
asr
·
asr数据集采集
·
asr方言数据集采集
ASR数据集采集系统 | ASR方言数据集采集系统 | ASR方言数据集采集系统 | 语音识别数据集采集系统
ASR数据集采集系统演示 | ASR方言数据集采集系统效果演示视频,点击这里访问 项目以及打包上传到我的百度网盘中 通过网盘分享的文件:ASR数据集采集系统 链接: https://pan.baidu.com/s/18IGnt6pzw2MBNIMyUIDPLg?pwd=9jaw 提取码: 9jaw
Together_CZ
4 个月前
llm
·
语音识别
·
多模态
·
自然语言
·
asr
·
技术报告
·
index-asr
Index-ASR Technical Report——Index-ASR 技术报告
这篇文章介绍了 Index-ASR,一个由哔哩哔哩团队开发的大规模、基于大语言模型(LLM)的自动语音识别(ASR)系统。其主要研究内容可概括为以下几点:
莽夫搞战术
4 个月前
语音识别
·
asr
【FireRedASR-AED】目前性能最好的开源中文ASR模型
[Paper] [Model] [Blog] [Demo] [modelscope]FireRedASR是一个开源的工业级自动语音识别(ASR)模型家族,支持普通话、中国方言和英语,在公共普通话ASR基准测试上达到了新的最先进水平(SOTA),同时还提供了出色的歌词识别能力。
云蝠呼叫大模型联络中心
4 个月前
系统架构
·
tts
·
asr
·
外呼系统
·
ai外呼
·
大模型呼叫
·
voiceagent
深度解析|云蝠智能大模型呼叫系统架构:神鹤双擎 + 暴风引擎,低延迟高并发解锁呼叫中心降本增效新路径
云蝠智能大模型呼叫系统是一款 AI 原生的大模型语音智能体,采用全栈自研的分层架构设计,区别于传统 "AI + 呼叫中心" 的简单叠加方案云蝠智能。核心架构分为五层协同架构(业务逻辑视角)与六层技术架构(技术实现视角),通过神鹤大模型双擎驱动与暴风引擎并行计算,实现毫秒级响应与复杂语义理解,构建端到端智能呼叫赋能体系。
新农仓
4 个月前
语音识别
·
gradio
·
asr
·
paraformer
5分钟部署Paraformer语音识别,离线转写带Gradio界面超简单
你是否遇到过这些场景:别再折腾了。今天带你用5分钟完成一套真正可用的本地语音识别系统——不联网、不依赖API、不担心数据泄露,上传音频→点击识别→秒出带标点的中文文本,全程在自己机器上跑完。
aopstudio
5 个月前
人工智能
·
语音识别
·
asr
ASR概念和术语学习指南(2):传统 ASR 系统的工作流程
如果你曾好奇"在现代端到端ASR系统普及之前,语音识别是怎么工作的?“,那么答案就藏在一个高度工程化的系统里。它不像今天的端到端模型那样"一键出文字”,而更像一座由四个车间组成的精密工厂:
未来之窗软件服务
5 个月前
语音识别
·
asr
·
仙盟创梦ide
·
东方仙盟
幽冥大陆(七十五) MinGW编译 WISPER ASR源码fairyalliancewhisper——东方仙盟练气期
https://github.com/cyberwin/fairyalliancewhisperhttps://www.mingw-w64.org/
未来之窗软件服务
6 个月前
运维
·
自动化
·
asr
·
东方仙盟
·
操作系统级别错误
幽冥大陆(五十五)ASR SetThreadInformation C语言识别到自动化软件
SetThreadInformation是 Windows 系统的一个内核相关 API,它的支持情况如下:
Luke Ewin
6 个月前
人工智能
·
python
·
语音识别
·
fastapi
·
asr
·
funasr
基于FunASR开发的可私有化部署的语音转文字接口 | FunASR接口开发 | 语音识别接口私有化部署
点击观看视频讲解项目已经开源,国内可访问,国外可访问。如果觉得这个项目不错,不妨给作者一个 Star,谢谢,Thank you.