ASR项目介绍

语音转文本ASR工具合集汇总过几个ASR项目或模型,本文继续汇总,并做简单介绍和部分初步实战。

注:缺乏深入实战,和问题记录,请勿喷。

Omnilingual ASR

论文项目首页,Meta开源(GitHub,2.4K Star,207 Fork),支持1600种语言,其中超过500种语言是首次被任何ASR系统覆盖。

ASR系统面临的根本困境是数据稀缺性悖论:英语、中文等主流语言拥有海量训练数据,模型性能不断提升;而低资源语言却陷入"数据贫瘠→模型失效→更少人使用"的死亡螺旋。7B-LLM-ASR系统在1600多种语言上实现最先进的性能,78%的语言字符错误率(CER)低于10。

传统方法如Whisper Large和MMS,虽然在高资源语言上表现优异,但遇到低资源语言时就会出现严重问题:大量"空白转录"(直接输出空文本)、跨语言混淆(将一种语言误识别为另一种)、以及无法处理的语音变异。技术局限本质上源于传统架构的固定输出空间设计------模型只能处理训练时见过的有限语言集合。扩展新语言意味着从头收集数万小时数据、重新训练整个模型,成本高达数百万美元。

技术突破

  • 数据:构建史上最大低资源语言语音库

Meta与全球社区合作,通过与Mozilla Foundation的Common Voice、Lanfrica/NaijaVoices等组织合作,直接与当地社区合作,收集350种传统ASR从未见过的语言数据。Omnilingual ASR Corpus的语料库,是目前最大的低资源语言语音数据集。

  • 双解码器
    • 扩展的wav2vec 2.0:将自监督学习预训练扩展到70亿参数,学习到极其鲁棒的语音表征能力。这种大规模预训练让模型能够捕捉到跨语言的共性特征。
    • 双解码器体系:创新性地结合CTC解码器和LLM式Transformer解码器。CTC解码器负责处理语音到文本的对齐问题,而LLM风格的解码器则引入了类似大语言模型的上下文学习能力。
    • 上下文学习:模型可以通过少量示例学习全新的语言,实现真正的"零样本"泛化能力。实现零样本学习:模型套件可以通过上下文学习教授新语言。

利用自监督学习和少样本学习技术,极大降低训练数据的需求。

模型家族:

模型类型 参数量 适用场景 相对速度
omniASR-CTC-300M 3.25亿 移动设备、边缘计算 96倍
omniASR-CTC-7B 65亿 服务器端高精度识别 16倍
omniASR-LLM-7B 78亿 零样本学习、新语言扩展 基准速度

对于训练时完全未见过的语言,Omnilingual ASR通过其上下文学习能力,仅需5-10个示例就能实现可用的识别精度,而传统方法则需要成千上万的标注样本。

py 复制代码
pip install omnilingual-asr
uv add omnilingual-asr

from omnilingual_asr.models.inference.pipeline import ASRInferencePipeline

pipeline = ASRInferencePipeline(model_card="omniASR_LLM_7B")
audio_files = ["/path/to/audio1.flac", "/path/to/audio2.wav"]
lang = ["eng_Latn", "deu_Latn"] # 指定语言代码
transcriptions = pipeline.transcribe(audio_files, lang=lang, batch_size=2)

languagecode_script格式

数据集

py 复制代码
pip install "omnilingual-asr[data]"
from datasets import load_dataset
from omnilingual_asr.models.inference.pipeline import ASRInferencePipeline
omni_dataset = load_dataset("facebook/omnilingual-asr-corpus", "lij_Latn", split="train", streaming=True)

VoiceCraft

论文,开源(GitHub,8.4K Star,799 Fork)AI驱动的语音处理平台,提供ASR、TTS等能力,项目主页

ASR居然不支持麦克风,需上传音频文件?

TTS,可通过手动输入文本或上传TXT文件来生成语音,支持多种声音选择(性别、音色和风格)。

Handy

官网,开源(GitHub,7.9K Star,520 Fork)本地语音转文字引擎工具,不是语音输入法,基于OpenAI Whisper和Parakeet V3,完全离线、不联网、不上传、不偷数据。

技术栈:

  • Silero VAD过滤静音,只说有效内容
  • Whisper模型(小/中/Turbo/大),支持GPU加速
  • Parakeet V3,CPU优化,自动语言检测,中文识别准确率吊打国内输入法
平台 支持情况
Windows x64,支持NVIDIA、Intel、AMD GPU加速
MacOS Intel+Apple Silicon全支持,M1/M2识别速度飞快
Linux Ubuntu 22.04/24.04测试通过,支持Vulkan加速
模型 优点 缺点 适合人群
Whisper Small 速度快,中文准 复杂术语略差 日常办公、写日报
Whisper Medium 准确率提升 占用1.5GB内存 写文档、写技术文章
Whisper Turbo 速度+准确率平衡 模型大 GPU设备
Parakeet V3 CPU优化,自动语言检测 英文更强 老电脑、低功耗设备

实战

模型选择

设置如下

高级设置

问题

使用Parakeet模型时,说中文,不支持识别(识别为英文):

下载Whisper Small成功,

本地存储地址为:C:\Users\<username>\AppData\Roaming\com.pais.handy

切换到此模型,应用闪退??打开Windows任务管理器,查看进程使用

技巧:说Let's go自动切英文,说我们开始自动切中文。

FireRedASR

论文,开源(GitHub,1.6K Star,149 Fork)。

Smart Turn

开源(GitHub,1.1K Star,63 Fork)语义VAD(Voice Activity Detection,语音活动检测)模型,目前支持语言包括阿拉伯语、孟加拉语、中文等23种。

开源模型:

最新v3.1版本的两个改进:

  • 新增三家数据合作伙伴提供的真实人声数据集,英语识别准确率从88.3%提升到95.6%:
    • Liva AI:专注不同情绪状态下的对话转折
    • Midcentury:提供12种语言的跨文化对话样本
    • MundoAI:采集16种语言的方言变体
  • 首次推出32MB未量化版本,在NVIDIA L40S上推理仅需2毫秒

训练数据组成,80%是TTS生成,另外20%是上述三家机构提供的真实人声;团队发现真实人声中那些真实的微妙的呼吸声、语气词等"噪声",恰恰是判断说话状态的关键。而这个发现将如何准确判断用户是否说完这个决策过程压缩到12毫秒,相比之下其他OCR模型要0.5-1秒才能判断。

CPU环境,模型文件仅8.68M,建议设置两个环境变量,可减少线程竞争带来的性能损耗:

复制代码
OMP_NUM_THREADS=1
OMP_WAIT_POLICY="PASSIVE"

GPU环境,模型文件仅32.4 MB。

WEST

技术报告,WE Speech Toolkit缩写,开源(GitHub,153 Star)语音工具箱,以LLM为核心,打通语音识别、合成、理解、对话全流程。通过Sequence Packing技术,WEST在处理1w条语音时,比传统静态批处理快2.4倍,GPU利用率提升至73.87%,兼顾效率与稳定性。

关键特性

  1. LLM驱动:充分复用成熟的技术生态,让语音任务与LLM生态无缝衔接,降低技术迁移成本:
    • 兼容HuggingFace等平台开源模型,如LLaMA、QWen、Mistral;
    • 采用Sequence Packing、Flash Attention等LLM训练技术,大幅提升训练效率;
  2. 统一数据格式:受文本LLM训练范式的启发,语音大模型的训练通常分为两个阶段:预训练和微调。预训练阶段通常利用大规模数据集,微调阶段采用较小规模高质量数据集。为了支持上述两个训练阶段并考虑数据存储和读取效率,设计两种数据格式:
    • 预训练数据格式:此数据包含语音和可选文本标签,且数据量较大,一般为百万级,支持tar、JSON两种格式。
    • 微调数据格式:使用role-content格式,方便支持多轮微调训练,对于语音理解、对话和多轮交互等任务至关重要。
  3. 全任务覆盖:支持识别、合成、理解、对话任务,具有可扩展性:
    • TouchASU:由语音编码器、投影仪和LLM组成。用于支持语音识别、语音理解和语音问答任务;
    • TouchTTS:由TouchTTS、TouchFlow、声码器三部分组成。TouchTTS负责文本到语音token建模,TouchFlow将语音token转化为梅尔谱特征,然后声码器将其转换为音频
    • TouchChat:参考Qwen2.5-omni设计,由TouchASU和TouchTTS组成,TouchASU负责理解语音,TouchTTS负责生成语音回复。
  • 可扩展性:支持适配开源模型,目前已支持OSUM-echat;用户也能基于基础组件自定义模型。

Kroko ASR

官网,专为边缘计算场景设计的开源(GitHub,115 Star,9 Fork)ASR模型,模型权重托管在HF官方文档。支持集成FreeSwitch、Asterisk、FreePBX等电话系统平台。

特性:

  • CPU优化:可在单个CPU核心上实现极快的转录速度,可处理8-10个并发流,显著降低硬件成本和能耗;
  • 边缘设备部署:模型体积小巧(约70MB),可直接在用户本地设备、移动应用或浏览器中运行,非常适合需要离线或本地处理的应用场景;
  • Whisper、Parakeet级别的准确性:基于CC-BY模型构建,专为实时电话通信而调整;
  • 集成简单:直接在拨号方案中使用kroko_transcribe或通过API使用uuid_kroko_transcribe
  • 低延迟串流:支持实时音频流处理,能提供即时响应的语音转文字体验,适用于语音助手、实时客服辅助和会议记录等需要即时反馈的场景;
  • 注重隐私:由于数据在本地处理(本地部署或设备端处理),敏感语音数据不会上传到云端服务器,提供更高的数据隐私保护和合规性;
  • 开源与商业结合:核心引擎是完全开源的,提供社区版(免费用于非商业用途)和付费的专业版模型,用户可以根据项目需求选择最合适的方案。

拓展

FreeSwitch

英文官网中文官网,开源(GitHub,4.5K Star,1.7K Fork)跨平台电话软交换平台,提供高扩展性和灵活性的实时音视频通信(VoIP)、多媒体路由、即时消息和会议功能,支持SIP及WebRTC等多种通信协议,可用于构建PBX(Private Branch Exchange,电话交换机)、软交换、语音网关等,广泛应用于呼叫中心、电信应用及各种通信解决方案中。

核心特点

  • 开源与跨平台:基于C/C++开发,在多种操作系统上运行
  • 协议支持:支持SIP、H.323、IAX2、WebRTC等
  • 功能丰富:包括呼叫控制、语音/视频会议、IVR(交互式语音应答)、录音、传真(T.38)等
  • 高扩展性:模块化设计,易于集成第三方库,通过API进行扩展
  • 灵活部署:可作为独立的软交换机、PBX、媒体网关或核心引擎

主要用途

  • 企业PBX:构建功能强大的内部电话系统
  • 呼叫中心:实现智能路由、IVR、录音等
  • 电信网关:连接不同通信协议的设备
  • 多媒体应用:支持音视频通信和会议系统

Asterisk

官网,开源(GitHub,2.9K Star,1.2K Fork)基于计算机的PBX系统,可将普通电脑变成功能强大的通信服务器,为小型企业、呼叫中心和运营商提供支持,用于构建IP PBX、VoIP网关等。

FreePBX

官网开源基于Web的IP PBX系统管理平台,建立在Asterisk软交换框架之上,提供图形化界面,让用户能够简单方便地配置和管理一个功能齐全的电话系统,实现企业通信功能,如分机、呼叫路由、IVR、语音邮件、呼叫录音等,是企业级通信解决方案,具有高度灵活性和可定制性。

主要功能

  • 分机管理:创建、管理内部分机;
  • 呼叫路由:灵活设置呼入和呼出呼叫的走向;
  • 交互式语音应答:IVR,自动语音导航菜单,如按1转接XX部门;
  • 呼叫排队/振铃组:用于呼叫中心或客服团队;
  • 语音邮件:Voicemail,语音留言功能;
  • 呼叫录音:记录通话内容;
  • 模块化:可按需添加额外功能模块,扩展系统能力。

优势

  • 开源免费:基础功能免费,降低部署成本;
  • 灵活性高:高度可定制,适应不同规模企业的需求;
  • 功能强大:提供传统电话系统所有功能,并有更多增值功能;
  • 易于使用:Web界面简化配置和管理,降低技术门槛。

推荐阅读

相关推荐
minhuan3 天前
大模型应用:完整语音交互闭环:TTS+ASR融合系统可视化场景实践.22
人工智能·语音识别·tts·asr·语音大模型应用
minhuan4 天前
大模型应用:语音转文本(ASR)实践:OpenAI Whisper精准转录解析.21
whisper·asr·多模态模型·语音转文本应用·语音大模型应用
未来之窗软件服务5 天前
幽冥大陆(四十五)人工智能自动化交互系统ASR——东方仙盟筑基期
运维·自动化·asr·仙盟创梦ide·东方仙盟·东方仙盟sdk·东方仙盟自动化
阿杰学AI11 天前
AI核心知识33——大语言模型之ASR(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·语音识别·asr·自动语音识别
Luke Ewin13 天前
记录训练呼叫中心专有ASR模型过程
语音识别·asr·实时语音识别·通话语音质检
witton1 个月前
克隆整个macOS系统到新磁盘
macos·asr·克隆·复制·迁移·恢复·restore
Luke Ewin1 个月前
内网私有化分布式集群部署语音识别接口
人工智能·分布式·语音识别·asr·funasr·通话语音质检·区分说话人
从孑开始2 个月前
ManySpeech.MoonshineAsr 使用指南
人工智能·ai·c#·.net·私有化部署·语音识别·onnx·asr·moonshine
加油20192 个月前
ASR+LLM:B站学习视屏下载并生成学习笔记
llm·学习笔记·b站·asr·bilibili