音频大模型分类、模型结构--更新中

音频大模型:

通用全能语音大模型:

开源:

Qwen2.5-Omini

Qwen3-Audio

AudioFlamingo3(AF3)

SAlomn-2

Mini-Omini

闭源:

GPT-4o Audio Realtime(OpenAI)

Gemini 3 Audio(Google)

豆包Omini

Qwen-Omini 商用版

E2E对话大模型:

开源:

Moshi

GLM-4-Voice

Covo-Audio

VITA_Audio

Step-Aduio

Llama-Omini 2

SemlessM4T v2

闭源:

星火

混元

MiniMax Speech-02

豆包

ASR:

开源:

Whisper (Open AI):tiny/base/small/m/l/turbo

FunAsr: Paraformer、SenseVoice、FireRedASR、Qwen3-ASR

Wenet、Nemo Parakeet、Mega-AsR

闭源:

Deepgram

AssemblyAI

讯飞听见

百度语音

火山语音

TTS:

开源:

Cosyvoice3

F5-TTS

VoxCPM2

FIsh-speech

GPT-Sovits

Spark-TTS

Kokoro-82M

闭源:

Eleven-Labs

MiniMax speech-02

StepAudio2.5

讯飞TTS

音乐:文生曲、歌声合成、编曲、乐器生成

开源:

AudioCraft MusicGen

Stable Audio

Fish Audio

Riffusion

商用:

Suno AI

Udio

百度问心音乐

通义万想音乐

环境音频/声音时间检查(音频表征提前、分类、降噪、分离):

Wav2Vec2

HuBERT

WavLM

CLAP

Demucs

主流音频大模型横向对比:

模型名称 类型 开源 / 闭源 核心覆盖能力 优势 适用场景
Qwen3-Audio / Qwen2.5-Omni 通用 Audio LLM 开源(Apache2.0) 语音 / 方言 / 音乐 / 环境声、ASR+TTS、全双工对话 中文最强、轻量可本地、免费商用、方言多 本地语音机器人、嵌入式、数字人、会议转写
Audio Flamingo 3 通用 Audio LLM 开源 人声 + 音效 + 音乐统一理解、长音频推理 纯音频原生训练、多语种音频问答 学术研究、多类型录音分析
GPT-4o Realtime Audio 通用 Audio LLM 闭源 API 全双工低延迟语音、音乐 / 杂音解析、70 + 语种翻译 实时交互流畅、跨语言天花板 海外跨境语音、实时同声传译
Gemini 3 Audio 通用 Audio LLM 闭源 API 音频 + 视频联动、多人对话、乐理分析 音视频一体化、长录音总结 短视频音频解析、多媒体内容审核
豆包 Omni 音频 通用 Audio LLM 闭源 API 中文方言、通话降噪、情感语音、长音频摘要 国内 C 端体验好、websocket 流式低延迟 国内 APP 语音助手、电话客服、录音复盘
Whisper Large-v3 ASR 专用 开源 100 + 语种语音转写、时间戳、翻译 生态最完善、跨平台 CPU/GPU 离线 视频字幕、跨境录音翻译、字幕制作
FireRedASR ASR 专用 开源 中文高噪电话、会议、回声录音识别 嘈杂环境 WER 极低,工业流式 呼叫中心、线下会议录音转写
CosyVoice3 TTS 克隆专用 开源 3 秒零样本人声克隆、中英混读、多情绪 克隆相似度高、推理稳定 AI 配音、虚拟人、短视频旁白
VoxCPM2 TTS 高保真 开源 2B 大参数、真人有声书质感、丰富情感 朗读自然、适合长篇内容 有声小说、课程配音、广播剧
Step-Audio Speech-LLM 开源 全双工语音对话、说唱合成、音色控制 中文口语流畅、延迟低 本地语音客服、陪伴机器人
Suno AI 音乐音频模型 闭源 API 文生完整歌曲、带歌词人声、多曲风 一键生成完整流行歌曲 短视频背景音乐、原创歌曲创作
SeamlessM4T v2 多语种语音大模型 开源 语音互译、ASR/TTS 一体、100 + 小语种 跨境小语种通话翻译 外贸实时语音翻译、多语言直播

以下为纠错

一、名称纠错

你的原文 纠正 说明
AudioFlamingo3(AF3) 不存在 原始 Audio Flamingo 是 2023 年论文,无 v3。你可能想指 SALMONNELLSA(2026)
SAlomn-2 SALMONN(正确拼写) 无独立 v2,最新迭代是 ELLSA(字节/清华,2026.4,ICLR 2026)
Qwen3-Audio 不存在 Qwen3 系列无通用音频模型。最新通用音频 LLM 是 Qwen2.5-Omni;Qwen3-ASR 仅做识别
Covo-Audio 无法确认 找不到此模型,可能是笔误,疑为 CosyVoice 或其他模型混淆
VITA_Audio VITA-1.5 无单独 "Audio" 版,正确名称 VITA-1.5(2024.12,NeurIPS 2025)
CosyVoice3 Fun-CosyVoice 3.0 2025.12 发布,0.5B,9语言+18种中文方言
Mega-ASR 无法确认 未找到此模型,可能不存在
Fish Audio(音乐类) 应移至 TTS Fish-Speech 是 TTS 模型(4B,80+语言),不是音乐生成模型
Step-Aduio Step-Audio 拼写修正;且已被 Step-Audio2(2025.8)取代

二、已过时/已归档模型

模型 状态
Riffusion 2022.12 归档,不再维护
Demucs 2025.1 归档,v4 为最终版本
VALL-E / VALL-E X 已归档,被新一代 Codec LM 取代
Tortoise-TTS 事实上已停更

三、信息修正

原文说法 修正
FireRedASR 属于 FunASR 错误。FireRedASR 是独立项目(FireRedTeam),不属于 FunASR
Qwen2.5-Omni 许可 Apache 2.0 正确
Fish-Speech 开源 非标准开源,使用 Fish Audio Research License(商用受限)
Whisper 最新版 最新为 large-v3-turbo(809M 参数,比 large-v3 快约 8 倍,但不支持翻译任务)
GPT-SoVITS 最新为 v2Pro(2025.6),性能超 v4 但硬件需求回到 v2 水平

四、应补充的重要模型

通用全能语音大模型(开源)

模型 时间 说明
MiniCPM-o 4.5 2026.2 OpenBMB,9B,全双工多模态,接近 Gemini 2.5 Flash
ELLSA 2026.4 字节/清华,端到端流式全双工,统一视觉/语音/文本/动作
Baichuan-Omni-1.5 2025 百川,7B 端到端全模态

E2E 对话大模型(开源)

模型 时间 说明
Step-Audio2 / 2-mini 2025.8 Step-Audio 的升级版,增加 R1 推理能力
Freeze-Omni 2025 冻结 Qwen2-7B 主干,ICML 2025,支持打断
Nemotron VoiceChat 2025-26 NVIDIA,全双工可打断

ASR

模型 时间 说明
Qwen3-ASR 2026.5 0.6B/1.7B,52 语种自动检测(通过 FunASR 发布)
GLM-ASR-Nano 2025-26 1.5B,17 语种,集成于 FunASR
Seed-ASR 2025 字节跳动,多语种
Parakeet V3 2025.8 NVIDIA,25 种欧洲语言
Nemotron-3.5-ASR-Streaming 2025-26 NVIDIA,40 语种,80ms-1s 可控延迟

TTS

模型 时间 说明
ChatTTS 活跃(v0.2.5) 对话优化,细粒度韵律控制(笑声/停顿等),39k stars
Dia / Dia2(Nari Labs) 2025-26 1.6B,多人对话生成,非语言音(笑/叹气),Apache-2.0
Sesame CSM 2025 1B,上下文感知多说话人,Apache-2.0
MaskGCT 2025 ICLR 2025,全非自回归零样本 TTS,MIT
Parler-TTS 2024 自然语言描述控制音色(性别/音高/风格),Apache-2.0
OuteTTS 1.0 2025.5 1B/0.6B,多语种克隆,Apache-2.0
EmotiVoice 活跃 网易,2000+音色,情感可控,Apache-2.0

音乐

模型 时间 说明
Suno v5.5 2026.3 最新版本(非 v4)
Udio Playground 2025.10 与 UMG 和解后仅用授权音乐训练
JASCO(Meta AudioCraft) 2025 支持和弦/旋律/鼓点条件生成
AudioLDM2 活跃 文本到音频/音乐,潜在扩散,48kHz

音频表征

模型 说明
BEATs 微软,AudioSet 分类 SOTA
AudioMAE Meta,音频谱图掩码自编码器
Mimi Kyutai(Moshi 项目),12.5Hz 流式编码,1.1kbps
EnCodec Meta AudioCraft,广泛用于 Codec LM
DualCodec 2025.5,低帧率语义增强编解码
emotion2vec FunASR 内,语音情感识别

五、横向对比表修正建议

原表问题 修正
Qwen3-Audio / Apache 2.0 应改为 Qwen2.5-Omni / Apache 2.0
Audio Flamingo 3 行 应替换为 SALMONN / ELLSA
Suno AI 描述 应更新为 v5.5(2026.3)
SeamlessM4T v2 许可 CC-BY-NC 4.0(非完全开源商用)
CosyVoice3 描述 应写为 Fun-CosyVoice 3.0,补充 150ms 流式延迟