主流开源大模型架构全景

近两年,大模型在架构层面经历了一轮快速演进,并逐步走向收敛与稳定。基于这一阶段性变化,可以做一次相对系统的梳理。

本文主要参考 Sebastian Raschka 的总结工作:https://sebastianraschka.com/llm-architecture-gallery/

其整理了从 2024 年 4 月到 2026 年 3 月的约 40 个开源大模型,并绘制了详尽的架构图与参数对比表,信息密度很高。在回顾历史的同时,也有必要面向前沿------例如 2026 年初的一批新模型:GLM-5 744B、Ling 2.5 1T、Qwen3.5 397B、Sarvam 105B/30B 等,整体可以归纳为四个重点方向:MoE 效率优化、混合注意力机制、长上下文能力、小语种支持。


一、主流开源大模型架构全景(2024--2026)

核心参考资料为《LLM Architecture Gallery》,该工作整合了多篇对比研究与架构图谱,系统覆盖了四类主流架构:

  • 稠密模型(Dense)
  • 稀疏专家模型(MoE)
  • MLA 模型(Multi-head Latent Attention)
  • 混合架构模型(Hybrid)

模型规模从 3B 级轻量模型到 1T 级超大模型,覆盖 Meta、Google、DeepSeek、阿里、智谱、小米、MiniMax 等主流厂商。每个模型均配有结构化信息卡,包括架构设计、参数规模、注意力机制与关键创新点。


二、四大架构类型与代表特征

1. 稠密模型(Dense)

代表模型:Llama 3 8B、OLMo 2/3、Gemma 3 27B、Mistral 3.1 Small 24B、Qwen3 系列、Tiny Aya 等

这类模型参数规模通常在 3B--32B,强调轻量化与低延迟,适用于端侧或中小算力场景。

技术特点:

  • 以 GQA(分组查询注意力)+ RoPE 为主流组合

  • 引入 QK-Norm、滑动窗口注意力(SWA)等优化

  • 部分模型在训练稳定性与结构上做差异化探索

    • OLMo:坚持 Post-norm
    • Tiny Aya:注意力与 MLP 并行计算

整体来看,Dense 模型仍是"可落地"的主力形态。


2. 稀疏专家模型(Sparse MoE)

代表模型:DeepSeek V3/R1、Llama 4 Maverick、Qwen3 235B-A22B、GLM-4.5、Mistral 3 Large、小米 MiMo-V2-Flash

核心特征是"总参量大、激活参量小"。例如 DeepSeek V3 总参 671B,但单次激活仅约 37B。

关键优势:

  • 通过专家路由显著降低计算成本
  • 支持超长上下文(128k+ 已成常态)

典型创新:

  • DeepSeek:稠密前缀 + 共享专家(行业标杆)
  • GLM-4.5:多层稠密前缀 + MoE
  • Llama 4:稠密块与 MoE 块交替
  • MiMo-V2-Flash:极小窗口(128 token)强化局部建模

MoE 已成为超大模型的"默认解法"。


3. MLA 模型(Multi-head Latent Attention)

代表模型:DeepSeek 系列、Kimi K2、GLM-5、Sarvam 等

MLA 通过潜在空间压缩注意力计算,逐步替代传统 MHA / GQA,并常与 MoE 结合使用。

特点:

  • 在超大参数规模下维持计算效率
  • 显著降低 KV Cache 压力

代表案例:

  • Kimi K2:1T 参数(激活约 32B),当前最大 MLA+MoE 模型之一
  • DeepSeek V3.2:引入自研稀疏注意力
  • GLM-5:MLA + 稀疏注意力融合

MLA 正成为高性能模型的重要分支。


4. 混合架构(Hybrid)

代表模型:Qwen3 Next、Qwen3.5、Kimi Linear、Nemotron 3、Ling 2.5

该方向的核心在"融合",主要体现在三条路径:

(1)注意力混合

  • GQA / MLA + 门控注意力 / DeltaNet
  • 如 Qwen3.5:多种注意力按比例组合

(2)架构混合

  • Transformer + 状态空间模型(如 Mamba-2)
  • 如 Nemotron 3:以 SSM 为主,注意力为辅

(3)线性注意力

  • 如 Ling 2.5:Lightning Attention + MLA
  • 支持万亿参数与超长上下文

混合架构正在突破传统 Transformer 的计算瓶颈。


三、关键技术趋势

1. MoE 成为主流路径

自 2024 年 DeepSeek V3 起,MoE 快速普及。到 2025--2026 年,百亿级以上模型几乎全面采用。优化重点集中在:

  • 专家路由效率
  • 激活参数占比
  • 避免专家"空转"

2. 注意力机制持续演化

  • GQA 仍是基础配置
  • MLA 快速崛起
  • SWA、门控注意力、DeltaNet、Lightning Attention 等并行发展
  • 长上下文(128k+)已成为标配,部分模型达到 512k

3. 训练与表示机制优化

  • QK-Norm 基本成为标配
  • RoPE 与 NoPE 组合逐渐普及
  • 长上下文位置编码(如 YaRN)不断优化
  • Post-norm 在部分模型中回归

4. 效率与专用化并行发展

一方面是轻量化:

  • 3B--8B 模型面向端侧部署
  • 结构进一步简化(如解绑 embedding)

另一方面是专业化:

  • 代码模型(如 MiniMax M2.5)
  • 小语种模型(如 Sarvam)

同时,新的设计范式不断出现:

  • Transformer + SSM
  • 稠密 + 稀疏
  • 注意力 + MLP 并行

本质上都是在突破算力与效率的边界。


总结

如果用一句话概括当前大模型架构的演进方向,可以说:

从"单一 Transformer"走向"多机制融合",在效率、规模与能力之间寻找新的平衡点。

MoE 解决规模问题,MLA 优化效率,混合架构探索上限,而长上下文与专用能力则决定落地价值。整体趋势已经从"比谁更大",转向"如何更高效、更可用"。

相关推荐
DoUfp0bgq1 天前
解决RDK X5(ARM64架构)板卡Remote-SSH运行Antigravity AI崩溃(SIGILL):Samba网络盘本地挂载方案
人工智能·架构·ssh
小小小怪兽1 天前
⛏️深入RAG
人工智能·langchain
Kel1 天前
Pi Monorepo Stream Event Flow 深度分析
人工智能·架构·node.js
ChatInfo1 天前
AI 写代码的时代,为什么动态语言开始显得更“便宜”了?
人工智能·web api
AI医影跨模态组学1 天前
Ann Oncol(IF=65.4)广东省人民医院放射科刘再毅等团队:基于深度学习CT分类器与病理标志物增强II期结直肠癌风险分层以优化辅助治疗决策
人工智能·深度学习·论文·医学·医学影像
牛马鸡niumasi1 天前
C/C++ 程序编译过程、静态/动态链接、静态/动态库
linux
L-影1 天前
下篇:tool的四大门派,以及它到底帮AI干了什么
人工智能·ai·tool
后端小肥肠1 天前
一句话出流程图!我把 OpenClaw + Skill 做成了自动生成业务图的能力
人工智能·aigc
Ztopcloud极拓云视角1 天前
Gemini 3.1 Pro vs GPT-5.4 Pro:API成本1/3、性能差多少?选型实测笔记
人工智能·笔记·gpt·ai·语言模型