音频大模型分类、模型结构--更新中

音频大模型：

通用全能语音大模型：

开源：

Qwen2.5-Omini

Qwen3-Audio

AudioFlamingo3（AF3）

SAlomn-2

Mini-Omini

闭源：

GPT-4o Audio Realtime(OpenAI)

Gemini 3 Audio（Google）

豆包Omini

Qwen-Omini 商用版

E2E对话大模型：

开源：

Moshi

GLM-4-Voice

Covo-Audio

VITA_Audio

Step-Aduio

Llama-Omini 2

SemlessM4T v2

闭源：

星火

混元

MiniMax Speech-02

豆包

ASR：

开源：

Whisper (Open AI)：tiny/base/small/m/l/turbo

FunAsr: Paraformer、SenseVoice、FireRedASR、Qwen3-ASR

Wenet、Nemo Parakeet、Mega-AsR

闭源：

Deepgram

AssemblyAI

讯飞听见

百度语音

火山语音

TTS：

开源：

Cosyvoice3

F5-TTS

VoxCPM2

FIsh-speech

GPT-Sovits

Spark-TTS

Kokoro-82M

闭源：

Eleven-Labs

MiniMax speech-02

StepAudio2.5

讯飞TTS

音乐：文生曲、歌声合成、编曲、乐器生成

开源：

AudioCraft MusicGen

Stable Audio

Fish Audio

Riffusion

商用：

Suno AI

Udio

百度问心音乐

通义万想音乐

环境音频/声音时间检查（音频表征提前、分类、降噪、分离）：

Wav2Vec2

HuBERT

WavLM

CLAP

Demucs

主流音频大模型横向对比：

模型名称	类型	开源 / 闭源	核心覆盖能力	优势	适用场景
Qwen3-Audio / Qwen2.5-Omni	通用 Audio LLM	开源（Apache2.0）	语音 / 方言 / 音乐 / 环境声、ASR+TTS、全双工对话	中文最强、轻量可本地、免费商用、方言多	本地语音机器人、嵌入式、数字人、会议转写
Audio Flamingo 3	通用 Audio LLM	开源	人声 + 音效 + 音乐统一理解、长音频推理	纯音频原生训练、多语种音频问答	学术研究、多类型录音分析
GPT-4o Realtime Audio	通用 Audio LLM	闭源 API	全双工低延迟语音、音乐 / 杂音解析、70 + 语种翻译	实时交互流畅、跨语言天花板	海外跨境语音、实时同声传译
Gemini 3 Audio	通用 Audio LLM	闭源 API	音频 + 视频联动、多人对话、乐理分析	音视频一体化、长录音总结	短视频音频解析、多媒体内容审核
豆包 Omni 音频	通用 Audio LLM	闭源 API	中文方言、通话降噪、情感语音、长音频摘要	国内 C 端体验好、websocket 流式低延迟	国内 APP 语音助手、电话客服、录音复盘
Whisper Large-v3	ASR 专用	开源	100 + 语种语音转写、时间戳、翻译	生态最完善、跨平台 CPU/GPU 离线	视频字幕、跨境录音翻译、字幕制作
FireRedASR	ASR 专用	开源	中文高噪电话、会议、回声录音识别	嘈杂环境 WER 极低，工业流式	呼叫中心、线下会议录音转写
CosyVoice3	TTS 克隆专用	开源	3 秒零样本人声克隆、中英混读、多情绪	克隆相似度高、推理稳定	AI 配音、虚拟人、短视频旁白
VoxCPM2	TTS 高保真	开源	2B 大参数、真人有声书质感、丰富情感	朗读自然、适合长篇内容	有声小说、课程配音、广播剧
Step-Audio	Speech-LLM	开源	全双工语音对话、说唱合成、音色控制	中文口语流畅、延迟低	本地语音客服、陪伴机器人
Suno AI	音乐音频模型	闭源 API	文生完整歌曲、带歌词人声、多曲风	一键生成完整流行歌曲	短视频背景音乐、原创歌曲创作
SeamlessM4T v2	多语种语音大模型	开源	语音互译、ASR/TTS 一体、100 + 小语种	跨境小语种通话翻译	外贸实时语音翻译、多语言直播

以下为纠错

一、名称纠错

你的原文	纠正	说明
AudioFlamingo3（AF3）	不存在	原始 Audio Flamingo 是 2023 年论文，无 v3。你可能想指 SALMONN 或 ELLSA（2026）
SAlomn-2	SALMONN（正确拼写）	无独立 v2，最新迭代是 ELLSA（字节/清华，2026.4，ICLR 2026）
Qwen3-Audio	不存在	Qwen3 系列无通用音频模型。最新通用音频 LLM 是 Qwen2.5-Omni；Qwen3-ASR 仅做识别
Covo-Audio	无法确认	找不到此模型，可能是笔误，疑为 CosyVoice 或其他模型混淆
VITA_Audio	VITA-1.5	无单独 "Audio" 版，正确名称 VITA-1.5（2024.12，NeurIPS 2025）
CosyVoice3	Fun-CosyVoice 3.0	2025.12 发布，0.5B，9语言+18种中文方言
Mega-ASR	无法确认	未找到此模型，可能不存在
Fish Audio（音乐类）	应移至 TTS	Fish-Speech 是 TTS 模型（4B，80+语言），不是音乐生成模型
Step-Aduio	Step-Audio	拼写修正；且已被 Step-Audio2（2025.8）取代

二、已过时/已归档模型

模型	状态
Riffusion	2022.12 归档，不再维护
Demucs	2025.1 归档，v4 为最终版本
VALL-E / VALL-E X	已归档，被新一代 Codec LM 取代
Tortoise-TTS	事实上已停更

三、信息修正

原文说法	修正
FireRedASR 属于 FunASR	错误。FireRedASR 是独立项目（FireRedTeam），不属于 FunASR
Qwen2.5-Omni 许可 Apache 2.0	正确 ✓
Fish-Speech 开源	非标准开源，使用 Fish Audio Research License（商用受限）
Whisper 最新版	最新为 large-v3-turbo（809M 参数，比 large-v3 快约 8 倍，但不支持翻译任务）
GPT-SoVITS	最新为 v2Pro（2025.6），性能超 v4 但硬件需求回到 v2 水平

四、应补充的重要模型

通用全能语音大模型（开源）

模型	时间	说明
MiniCPM-o 4.5	2026.2	OpenBMB，9B，全双工多模态，接近 Gemini 2.5 Flash
ELLSA	2026.4	字节/清华，端到端流式全双工，统一视觉/语音/文本/动作
Baichuan-Omni-1.5	2025	百川，7B 端到端全模态

E2E 对话大模型（开源）

模型	时间	说明
Step-Audio2 / 2-mini	2025.8	Step-Audio 的升级版，增加 R1 推理能力
Freeze-Omni	2025	冻结 Qwen2-7B 主干，ICML 2025，支持打断
Nemotron VoiceChat	2025-26	NVIDIA，全双工可打断

ASR

模型	时间	说明
Qwen3-ASR	2026.5	0.6B/1.7B，52 语种自动检测（通过 FunASR 发布）
GLM-ASR-Nano	2025-26	1.5B，17 语种，集成于 FunASR
Seed-ASR	2025	字节跳动，多语种
Parakeet V3	2025.8	NVIDIA，25 种欧洲语言
Nemotron-3.5-ASR-Streaming	2025-26	NVIDIA，40 语种，80ms-1s 可控延迟

TTS

模型	时间	说明
ChatTTS	活跃（v0.2.5）	对话优化，细粒度韵律控制（笑声/停顿等），39k stars
Dia / Dia2（Nari Labs）	2025-26	1.6B，多人对话生成，非语言音（笑/叹气），Apache-2.0
Sesame CSM	2025	1B，上下文感知多说话人，Apache-2.0
MaskGCT	2025	ICLR 2025，全非自回归零样本 TTS，MIT
Parler-TTS	2024	自然语言描述控制音色（性别/音高/风格），Apache-2.0
OuteTTS 1.0	2025.5	1B/0.6B，多语种克隆，Apache-2.0
EmotiVoice	活跃	网易，2000+音色，情感可控，Apache-2.0

音乐

模型	时间	说明
Suno v5.5	2026.3	最新版本（非 v4）
Udio Playground	2025.10	与 UMG 和解后仅用授权音乐训练
JASCO（Meta AudioCraft）	2025	支持和弦/旋律/鼓点条件生成
AudioLDM2	活跃	文本到音频/音乐，潜在扩散，48kHz

音频表征

模型	说明
BEATs	微软，AudioSet 分类 SOTA
AudioMAE	Meta，音频谱图掩码自编码器
Mimi	Kyutai（Moshi 项目），12.5Hz 流式编码，1.1kbps
EnCodec	Meta AudioCraft，广泛用于 Codec LM
DualCodec	2025.5，低帧率语义增强编解码
emotion2vec	FunASR 内，语音情感识别

五、横向对比表修正建议

原表问题	修正
Qwen3-Audio / Apache 2.0	应改为 Qwen2.5-Omni / Apache 2.0
Audio Flamingo 3 行	应替换为 SALMONN / ELLSA
Suno AI 描述	应更新为 v5.5（2026.3）
SeamlessM4T v2 许可	CC-BY-NC 4.0（非完全开源商用）
CosyVoice3 描述	应写为 Fun-CosyVoice 3.0，补充 150ms 流式延迟