音频大模型:
通用全能语音大模型:
开源:
Qwen2.5-Omini
Qwen3-Audio
AudioFlamingo3(AF3)
SAlomn-2
Mini-Omini
闭源:
GPT-4o Audio Realtime(OpenAI)
Gemini 3 Audio(Google)
豆包Omini
Qwen-Omini 商用版
E2E对话大模型:
开源:
Moshi
GLM-4-Voice
Covo-Audio
VITA_Audio
Step-Aduio
Llama-Omini 2
SemlessM4T v2
闭源:
星火
混元
MiniMax Speech-02
豆包
ASR:
开源:
Whisper (Open AI):tiny/base/small/m/l/turbo
FunAsr: Paraformer、SenseVoice、FireRedASR、Qwen3-ASR
Wenet、Nemo Parakeet、Mega-AsR
闭源:
Deepgram
AssemblyAI
讯飞听见
百度语音
火山语音
TTS:
开源:
Cosyvoice3
F5-TTS
VoxCPM2
FIsh-speech
GPT-Sovits
Spark-TTS
Kokoro-82M
闭源:
Eleven-Labs
MiniMax speech-02
StepAudio2.5
讯飞TTS
音乐:文生曲、歌声合成、编曲、乐器生成
开源:
AudioCraft MusicGen
Stable Audio
Fish Audio
Riffusion
商用:
Suno AI
Udio
百度问心音乐
通义万想音乐
环境音频/声音时间检查(音频表征提前、分类、降噪、分离):
Wav2Vec2
HuBERT
WavLM
CLAP
Demucs
主流音频大模型横向对比:
| 模型名称 | 类型 | 开源 / 闭源 | 核心覆盖能力 | 优势 | 适用场景 |
|---|---|---|---|---|---|
| Qwen3-Audio / Qwen2.5-Omni | 通用 Audio LLM | 开源(Apache2.0) | 语音 / 方言 / 音乐 / 环境声、ASR+TTS、全双工对话 | 中文最强、轻量可本地、免费商用、方言多 | 本地语音机器人、嵌入式、数字人、会议转写 |
| Audio Flamingo 3 | 通用 Audio LLM | 开源 | 人声 + 音效 + 音乐统一理解、长音频推理 | 纯音频原生训练、多语种音频问答 | 学术研究、多类型录音分析 |
| GPT-4o Realtime Audio | 通用 Audio LLM | 闭源 API | 全双工低延迟语音、音乐 / 杂音解析、70 + 语种翻译 | 实时交互流畅、跨语言天花板 | 海外跨境语音、实时同声传译 |
| Gemini 3 Audio | 通用 Audio LLM | 闭源 API | 音频 + 视频联动、多人对话、乐理分析 | 音视频一体化、长录音总结 | 短视频音频解析、多媒体内容审核 |
| 豆包 Omni 音频 | 通用 Audio LLM | 闭源 API | 中文方言、通话降噪、情感语音、长音频摘要 | 国内 C 端体验好、websocket 流式低延迟 | 国内 APP 语音助手、电话客服、录音复盘 |
| Whisper Large-v3 | ASR 专用 | 开源 | 100 + 语种语音转写、时间戳、翻译 | 生态最完善、跨平台 CPU/GPU 离线 | 视频字幕、跨境录音翻译、字幕制作 |
| FireRedASR | ASR 专用 | 开源 | 中文高噪电话、会议、回声录音识别 | 嘈杂环境 WER 极低,工业流式 | 呼叫中心、线下会议录音转写 |
| CosyVoice3 | TTS 克隆专用 | 开源 | 3 秒零样本人声克隆、中英混读、多情绪 | 克隆相似度高、推理稳定 | AI 配音、虚拟人、短视频旁白 |
| VoxCPM2 | TTS 高保真 | 开源 | 2B 大参数、真人有声书质感、丰富情感 | 朗读自然、适合长篇内容 | 有声小说、课程配音、广播剧 |
| Step-Audio | Speech-LLM | 开源 | 全双工语音对话、说唱合成、音色控制 | 中文口语流畅、延迟低 | 本地语音客服、陪伴机器人 |
| Suno AI | 音乐音频模型 | 闭源 API | 文生完整歌曲、带歌词人声、多曲风 | 一键生成完整流行歌曲 | 短视频背景音乐、原创歌曲创作 |
| SeamlessM4T v2 | 多语种语音大模型 | 开源 | 语音互译、ASR/TTS 一体、100 + 小语种 | 跨境小语种通话翻译 | 外贸实时语音翻译、多语言直播 |
以下为纠错
一、名称纠错
| 你的原文 | 纠正 | 说明 |
|---|---|---|
| AudioFlamingo3(AF3) | 不存在 | 原始 Audio Flamingo 是 2023 年论文,无 v3。你可能想指 SALMONN 或 ELLSA(2026) |
| SAlomn-2 | SALMONN(正确拼写) | 无独立 v2,最新迭代是 ELLSA(字节/清华,2026.4,ICLR 2026) |
| Qwen3-Audio | 不存在 | Qwen3 系列无通用音频模型。最新通用音频 LLM 是 Qwen2.5-Omni;Qwen3-ASR 仅做识别 |
| Covo-Audio | 无法确认 | 找不到此模型,可能是笔误,疑为 CosyVoice 或其他模型混淆 |
| VITA_Audio | VITA-1.5 | 无单独 "Audio" 版,正确名称 VITA-1.5(2024.12,NeurIPS 2025) |
| CosyVoice3 | Fun-CosyVoice 3.0 | 2025.12 发布,0.5B,9语言+18种中文方言 |
| Mega-ASR | 无法确认 | 未找到此模型,可能不存在 |
| Fish Audio(音乐类) | 应移至 TTS | Fish-Speech 是 TTS 模型(4B,80+语言),不是音乐生成模型 |
| Step-Aduio | Step-Audio | 拼写修正;且已被 Step-Audio2(2025.8)取代 |
二、已过时/已归档模型
| 模型 | 状态 |
|---|---|
| Riffusion | 2022.12 归档,不再维护 |
| Demucs | 2025.1 归档,v4 为最终版本 |
| VALL-E / VALL-E X | 已归档,被新一代 Codec LM 取代 |
| Tortoise-TTS | 事实上已停更 |
三、信息修正
| 原文说法 | 修正 |
|---|---|
| FireRedASR 属于 FunASR | 错误。FireRedASR 是独立项目(FireRedTeam),不属于 FunASR |
| Qwen2.5-Omni 许可 Apache 2.0 | 正确 ✓ |
| Fish-Speech 开源 | 非标准开源,使用 Fish Audio Research License(商用受限) |
| Whisper 最新版 | 最新为 large-v3-turbo(809M 参数,比 large-v3 快约 8 倍,但不支持翻译任务) |
| GPT-SoVITS | 最新为 v2Pro(2025.6),性能超 v4 但硬件需求回到 v2 水平 |
四、应补充的重要模型
通用全能语音大模型(开源)
| 模型 | 时间 | 说明 |
|---|---|---|
| MiniCPM-o 4.5 | 2026.2 | OpenBMB,9B,全双工多模态,接近 Gemini 2.5 Flash |
| ELLSA | 2026.4 | 字节/清华,端到端流式全双工,统一视觉/语音/文本/动作 |
| Baichuan-Omni-1.5 | 2025 | 百川,7B 端到端全模态 |
E2E 对话大模型(开源)
| 模型 | 时间 | 说明 |
|---|---|---|
| Step-Audio2 / 2-mini | 2025.8 | Step-Audio 的升级版,增加 R1 推理能力 |
| Freeze-Omni | 2025 | 冻结 Qwen2-7B 主干,ICML 2025,支持打断 |
| Nemotron VoiceChat | 2025-26 | NVIDIA,全双工可打断 |
ASR
| 模型 | 时间 | 说明 |
|---|---|---|
| Qwen3-ASR | 2026.5 | 0.6B/1.7B,52 语种自动检测(通过 FunASR 发布) |
| GLM-ASR-Nano | 2025-26 | 1.5B,17 语种,集成于 FunASR |
| Seed-ASR | 2025 | 字节跳动,多语种 |
| Parakeet V3 | 2025.8 | NVIDIA,25 种欧洲语言 |
| Nemotron-3.5-ASR-Streaming | 2025-26 | NVIDIA,40 语种,80ms-1s 可控延迟 |
TTS
| 模型 | 时间 | 说明 |
|---|---|---|
| ChatTTS | 活跃(v0.2.5) | 对话优化,细粒度韵律控制(笑声/停顿等),39k stars |
| Dia / Dia2(Nari Labs) | 2025-26 | 1.6B,多人对话生成,非语言音(笑/叹气),Apache-2.0 |
| Sesame CSM | 2025 | 1B,上下文感知多说话人,Apache-2.0 |
| MaskGCT | 2025 | ICLR 2025,全非自回归零样本 TTS,MIT |
| Parler-TTS | 2024 | 自然语言描述控制音色(性别/音高/风格),Apache-2.0 |
| OuteTTS 1.0 | 2025.5 | 1B/0.6B,多语种克隆,Apache-2.0 |
| EmotiVoice | 活跃 | 网易,2000+音色,情感可控,Apache-2.0 |
音乐
| 模型 | 时间 | 说明 |
|---|---|---|
| Suno v5.5 | 2026.3 | 最新版本(非 v4) |
| Udio Playground | 2025.10 | 与 UMG 和解后仅用授权音乐训练 |
| JASCO(Meta AudioCraft) | 2025 | 支持和弦/旋律/鼓点条件生成 |
| AudioLDM2 | 活跃 | 文本到音频/音乐,潜在扩散,48kHz |
音频表征
| 模型 | 说明 |
|---|---|
| BEATs | 微软,AudioSet 分类 SOTA |
| AudioMAE | Meta,音频谱图掩码自编码器 |
| Mimi | Kyutai(Moshi 项目),12.5Hz 流式编码,1.1kbps |
| EnCodec | Meta AudioCraft,广泛用于 Codec LM |
| DualCodec | 2025.5,低帧率语义增强编解码 |
| emotion2vec | FunASR 内,语音情感识别 |
五、横向对比表修正建议
| 原表问题 | 修正 |
|---|---|
| Qwen3-Audio / Apache 2.0 | 应改为 Qwen2.5-Omni / Apache 2.0 |
| Audio Flamingo 3 行 | 应替换为 SALMONN / ELLSA |
| Suno AI 描述 | 应更新为 v5.5(2026.3) |
| SeamlessM4T v2 许可 | CC-BY-NC 4.0(非完全开源商用) |
| CosyVoice3 描述 | 应写为 Fun-CosyVoice 3.0,补充 150ms 流式延迟 |