主流开源大模型架构全景

近两年，大模型在架构层面经历了一轮快速演进，并逐步走向收敛与稳定。基于这一阶段性变化，可以做一次相对系统的梳理。

本文主要参考 Sebastian Raschka 的总结工作：https://sebastianraschka.com/llm-architecture-gallery/

其整理了从 2024 年 4 月到 2026 年 3 月的约 40 个开源大模型，并绘制了详尽的架构图与参数对比表，信息密度很高。在回顾历史的同时，也有必要面向前沿------例如 2026 年初的一批新模型：GLM-5 744B、Ling 2.5 1T、Qwen3.5 397B、Sarvam 105B/30B 等，整体可以归纳为四个重点方向：MoE 效率优化、混合注意力机制、长上下文能力、小语种支持。

一、主流开源大模型架构全景（2024--2026）

核心参考资料为《LLM Architecture Gallery》，该工作整合了多篇对比研究与架构图谱，系统覆盖了四类主流架构：

稠密模型（Dense）
稀疏专家模型（MoE）
MLA 模型（Multi-head Latent Attention）
混合架构模型（Hybrid）

模型规模从 3B 级轻量模型到 1T 级超大模型，覆盖 Meta、Google、DeepSeek、阿里、智谱、小米、MiniMax 等主流厂商。每个模型均配有结构化信息卡，包括架构设计、参数规模、注意力机制与关键创新点。

二、四大架构类型与代表特征

1. 稠密模型（Dense）

代表模型：Llama 3 8B、OLMo 2/3、Gemma 3 27B、Mistral 3.1 Small 24B、Qwen3 系列、Tiny Aya 等

这类模型参数规模通常在 3B--32B，强调轻量化与低延迟，适用于端侧或中小算力场景。

技术特点：

以 GQA（分组查询注意力）+ RoPE 为主流组合
引入 QK-Norm、滑动窗口注意力（SWA）等优化
部分模型在训练稳定性与结构上做差异化探索
- OLMo：坚持 Post-norm
- Tiny Aya：注意力与 MLP 并行计算

整体来看，Dense 模型仍是"可落地"的主力形态。

2. 稀疏专家模型（Sparse MoE）

代表模型：DeepSeek V3/R1、Llama 4 Maverick、Qwen3 235B-A22B、GLM-4.5、Mistral 3 Large、小米 MiMo-V2-Flash

核心特征是"总参量大、激活参量小"。例如 DeepSeek V3 总参 671B，但单次激活仅约 37B。

关键优势：

通过专家路由显著降低计算成本
支持超长上下文（128k+ 已成常态）

典型创新：

DeepSeek：稠密前缀 + 共享专家（行业标杆）
GLM-4.5：多层稠密前缀 + MoE
Llama 4：稠密块与 MoE 块交替
MiMo-V2-Flash：极小窗口（128 token）强化局部建模

MoE 已成为超大模型的"默认解法"。

3. MLA 模型（Multi-head Latent Attention）

代表模型：DeepSeek 系列、Kimi K2、GLM-5、Sarvam 等

MLA 通过潜在空间压缩注意力计算，逐步替代传统 MHA / GQA，并常与 MoE 结合使用。

特点：

在超大参数规模下维持计算效率
显著降低 KV Cache 压力

代表案例：

Kimi K2：1T 参数（激活约 32B），当前最大 MLA+MoE 模型之一
DeepSeek V3.2：引入自研稀疏注意力
GLM-5：MLA + 稀疏注意力融合

MLA 正成为高性能模型的重要分支。

4. 混合架构（Hybrid）

代表模型：Qwen3 Next、Qwen3.5、Kimi Linear、Nemotron 3、Ling 2.5

该方向的核心在"融合"，主要体现在三条路径：

（1）注意力混合

GQA / MLA + 门控注意力 / DeltaNet
如 Qwen3.5：多种注意力按比例组合

（2）架构混合

Transformer + 状态空间模型（如 Mamba-2）
如 Nemotron 3：以 SSM 为主，注意力为辅

（3）线性注意力

如 Ling 2.5：Lightning Attention + MLA
支持万亿参数与超长上下文

混合架构正在突破传统 Transformer 的计算瓶颈。

三、关键技术趋势

1. MoE 成为主流路径

自 2024 年 DeepSeek V3 起，MoE 快速普及。到 2025--2026 年，百亿级以上模型几乎全面采用。优化重点集中在：

专家路由效率
激活参数占比
避免专家"空转"

2. 注意力机制持续演化

GQA 仍是基础配置
MLA 快速崛起
SWA、门控注意力、DeltaNet、Lightning Attention 等并行发展
长上下文（128k+）已成为标配，部分模型达到 512k

3. 训练与表示机制优化

QK-Norm 基本成为标配
RoPE 与 NoPE 组合逐渐普及
长上下文位置编码（如 YaRN）不断优化
Post-norm 在部分模型中回归

4. 效率与专用化并行发展

一方面是轻量化：

3B--8B 模型面向端侧部署
结构进一步简化（如解绑 embedding）

另一方面是专业化：

代码模型（如 MiniMax M2.5）
小语种模型（如 Sarvam）

同时，新的设计范式不断出现：

Transformer + SSM
稠密 + 稀疏
注意力 + MLP 并行

本质上都是在突破算力与效率的边界。

总结

如果用一句话概括当前大模型架构的演进方向，可以说：

从"单一 Transformer"走向"多机制融合"，在效率、规模与能力之间寻找新的平衡点。

MoE 解决规模问题，MLA 优化效率，混合架构探索上限，而长上下文与专用能力则决定落地价值。整体趋势已经从"比谁更大"，转向"如何更高效、更可用"。