系列文章导航:AI系列文章导航目录-持续更新中
第03课:主流大模型家族与演进
📝 本文摘要:本文梳理了三大模型阵营(OpenAI闭源标杆、开源阵营LLaMA/Mistral/DeepSeek/Qwen、其他闭源Claude/Gemini),详解各系列演进路线和核心创新(如DeepSeek的MLA和细粒度MoE、R1纯RL推理、Claude的Constitutional AI、Gemini的原生多模态、Qwen的MoE+思考模式),并提供2026年模型选型速查表。
了解模型家族,你才能在做技术选型时做出正确判断。每个家族有自己的设计哲学和擅长的领域。本课会帮你理解:为什么模型会这样演进?每一步演进解决了什么问题?
一、三大阵营概览
┌─ OpenAI阵营(闭源标杆)
│ GPT系列 → 定义了"大模型助手"的范式
│ o系列 → 开创"推理模型"新品类
│
大模型世界 ─────────┼─ 开源阵营(生态繁荣)
│ LLaMA → Meta的开源贡献,催生了整个开源生态
│ Mistral → 欧洲力量,MoE创新
│ DeepSeek → 中国力量,极致性价比
│ Qwen → 阿里,中文最强开源之一
│
└─ 其他闭源(差异化竞争)
Claude → Anthropic,安全与长上下文
Gemini → Google,多模态原生
为什么会有三条路线:
- 闭源标杆(OpenAI):商业模式驱动,高质量对齐 + 闭源API,定义了"产品好用"的标准
- 开源阵营:社区驱动,降低使用门槛,催生了微调、部署、Agent开发工具链的繁荣
- 其他闭源:各有差异化卖点------Claude的安全和长上下文,Gemini的原生多模态
二、OpenAI GPT系列
2.1 演进路线
| 模型 | 时间 | 参数 | 核心突破 | 解决的问题 |
|---|---|---|---|---|
| GPT-1 | 2018.06 | 117M | 验证预训练+微调范式 | "NLP任务不需要从零训练,预训练模型微调就行" |
| GPT-2 | 2019.02 | 1.5B | 规模扩大,少样本生成 | "模型够大,不需要微调也能写文章" |
| GPT-3 | 2020.05 | 175B | Few-shot in-context learning(少样本上下文学习) | "不需要微调,在Prompt里给几个例子就行" |
| GPT-3.5 | 2022.11 | ~175B | RLHF对齐 → ChatGPT | "模型输出不可控?RLHF让它变成好助手" |
| GPT-4 | 2023.03 | 未公开 | 多模态,推理能力飞跃 | "纯文本不够,要能看图、理解复杂问题" |
| GPT-4o | 2024.05 | 未公开 | 端到端多模态,低延迟 | "拼接的多模态不够原生,延迟要低" |
| o1 | 2024.09 | 未公开 | 思维链推理模型(CoT Reasoning Model) | "简单问答不够,需要复杂多步推理" |
| o3 | 2025.01 | 未公开 | 更强推理,代码/数学/科学 | "推理深度还不够,要接近专家水平" |
| GPT-4.1 | 2025.04 | 未公开 | 指令遵循增强 | "Agent需要模型严格按指令行事" |
2.2 GPT系列的设计哲学
- Decoder-only:从GPT-1就坚持自回归生成路线
- 规模优先:用规模换能力,Scaling Laws(缩放定律)的忠实践行者
- 对齐驱动:GPT-3→GPT-3.5的核心不是参数量,而是RLHF------模型从"能力很强但不好用"变成"能力很强且好用"
2.3 对开发者的意义
OpenAI定义了大模型应用的API范式:
- Chat Completions API(对话补全API)→ 全行业跟进
- Function Calling(函数调用)→ Agent开发的基础能力
- Structured Outputs(结构化输出)→ 可靠的输出控制
关键认知:OpenAI的每次升级都在解决上一代的问题------GPT-3能力够但不好控 → RLHF;GPT-4推理强但慢且贵 → o1的思维链;o1不够听话 → GPT-4.1指令遵循增强。
三、Meta LLaMA系列
3.1 为什么LLaMA如此重要
LLaMA不是最强的模型,但它是开源大模型运动的起点。LLaMA weights(模型权重)泄露后,整个开源社区基于它发展出了Vicuna、Alpaca、WizardLM等几十个变体,证明了开源模型可以商用。
解决的问题:大模型不再只有OpenAI能用------任何人都可以在本地部署、微调、二次开发。
3.2 演进路线
| 模型 | 时间 | 核心变化 | 解决的问题 |
|---|---|---|---|
| LLaMA | 2023.02 | 7B-65B,只用公开数据训练 | "开源模型能不能行?" → 能 |
| Llama 2 | 2023.07 | 7B-70B,商用许可,Chat版本 | "开源能不能商用?" → 能 |
| Llama 3 | 2024.04 | 8B/70B,tokenizer扩展到128K词表 | "词表太小效率低" → 扩大词表 |
| Llama 3.1 | 2024.07 | 8B/70B/405B,405B开源最大 | "开源能不能更大?" → 405B |
| Llama 3.2 | 2024.09 | 多模态版本,1B/3B小模型 | "开源也要端侧小模型+多模态" |
| Llama 4 | 2025.04 | MoE架构,Scout/Maverick | "Dense模型太大太贵" → MoE稀疏激活 |
3.3 关键设计选择
- 词表扩展(Tokenizer Vocabulary Expansion):Llama 3将词表从32K扩展到128K,提升了多语言和代码的编码效率(词表越大,每个Token平均编码的字符越多,序列越短,推理越快)
- 训练数据量:LLaMA用1.4T tokens,Llama 2用2T,Llama 3用15T+------Chinchilla定律( Hoffmann et al., 2022)的实践:更多数据训练更小模型效果更好
- GQA(Grouped Query Attention,分组查询注意力):多个Query头共享同一组Key和Value头,减少KV Cache大小,提升推理效率
LLaMA的演进逻辑:证明开源可行 → 开源商用 → 扩大词表和参数 → 引入MoE降低成本。每一步都是在解决"开源模型如何更实用"的问题。
四、DeepSeek系列
4.1 为什么DeepSeek值得关注
DeepSeek用极低的训练成本实现了顶尖性能,打破了"大模型必须烧巨资"的认知。
解决的问题:大模型训练成本过高(GPT-4据传超1亿美元),DeepSeek-V3仅557万美元,性能却比肩顶级模型。
4.2 演进路线
| 模型 | 时间 | 核心创新 | 解决的问题 |
|---|---|---|---|
| DeepSeek-LLM | 2024.01 | 基础模型 | "从零开始" |
| DeepSeek-MoE | 2024.01 | 细粒度MoE架构 | "标准MoE专家太少组合不够灵活" → 64个小专家选6个 |
| DeepSeek-V2 | 2024.05 | MLA(Multi-head Latent Attention,多头潜在注意力) | "KV Cache太大" → 压缩到低维潜在表示 |
| DeepSeek-V3 | 2024.12 | 671B MoE,训练成本仅557万美元 | "训练太贵" → FP8混合精度+多Token预测 |
| DeepSeek-R1 | 2025.01 | 开源推理模型,纯RL训练出CoT | "思维链需要人工写示例?" → RL让模型自己探索 |
| DeepSeek-R1-0528 | 2025.05 | R1迭代版本,推理能力增强 | "R1还不够强" → 进一步优化 |
| DeepSeek-V3.1 | 2025.08 | V3迭代 | 持续优化基础模型 |
| DeepSeek-V4 | 2026.04 | Pro/Flash系列,训练效率大幅提升 | "推理速度和成本" → Flash版加速推理 |
| DeepSeek-Prover-V2 | 2025.04 | 数学证明专用模型 | "通用模型做数学证明不够专业" → 专项优化 |
4.3 关键技术创新详解
MLA(Multi-head Latent Attention,多头潜在注意力):
标准注意力: 每个Token存完整的K和V,序列越长缓存越大
→ 长序列推理成本极高
MLA: 将K和V压缩到低维潜在表示(Latent Representation)
→ KV Cache大幅减少
→ 推理成本降低,支持更长上下文
原理: 不直接缓存K和V,而是缓存它们的低维压缩表示
计算注意力时,从压缩表示还原回K和V
用少量精度换取大量显存节省
DeepSeekMoE细粒度专家:
标准MoE(如Mixtral): 8个大专家,选2个
→ 专家少,组合方式有限(C(8,2)=28种)
DeepSeekMoE: 64个小专家,选6个(更灵活的组合)
→ C(64,6) ≈ 7亿种组合,模型更灵活
DeepSeek-V3: 256个路由专家(Routing Expert)+ 1个共享专家(Shared Expert),选8个
→ 共享专家始终激活,处理通用知识
→ 路由专家动态选择,处理专门知识
→ 总参数671B,激活37B
R1的纯RL(Reinforcement Learning,强化学习)训练:
传统CoT: 人工写思维链示例 → SFT(Supervised Fine-Tuning,监督微调)教模型模仿
→ 模型只是模仿,不会真正"思考"
R1的做法: 直接用RL,让模型自己探索出推理过程
→ 不给示例,只给奖励信号(答案对就奖励)
→ 模型自发学会了"aha moment"(自我纠错)------遇到错误回退检查
→ 真正学会了推理,而非模仿推理
DeepSeek的演进逻辑:基础模型 → MoE架构创新 → MLA减少缓存 → V3极致降本 → R1纯RL推理 → V4全面进化。每一步都在解决"如何让大模型更好更便宜"这个核心问题。
五、其他重要模型
5.1 Anthropic Claude系列
| 模型 | 时间 | 核心特点 | 解决的问题 |
|---|---|---|---|
| Claude 1 | 2023.03 | Constitutional AI(宪法AI)对齐方法 | "RLHF需要大量人工标注" → 模型自我批评 |
| Claude 2 | 2023.07 | 100K上下文 | "上下文太短" → 10万token |
| Claude 3 | 2024.03 | Haiku/Sonnet/Opus三档 | "不同场景需要不同大小模型" → 三档选择 |
| Claude 3.5 | 2024.06-10 | Sonnet性价比极高,Artifacts | "Agent需要动态工具" → Artifacts生成 |
| Claude 4 | 2025.05 | Opus 4 / Sonnet 4,Agent能力增强 | "Agent需要更强的自主执行能力" |
核心差异:Constitutional AI(宪法AI对齐)让模型通过"自我批评"来对齐------模型生成回答,自己批评,修改,再输出。减少了对人工标注的依赖。长上下文和安全性是Claude的标签。
Claude的演进逻辑:对齐方法创新(Constitutional AI)→ 长上下文 → 三档模型 → Agent能力(Artifacts、计算机使用)。一直围绕"安全可用"和"Agent友好"在演进。
5.2 Google Gemini系列
| 模型 | 时间 | 核心特点 | 解决的问题 |
|---|---|---|---|
| Gemini 1.0 | 2023.12 | 原生多模态(不是拼接,是模型本身理解多模态) | "多模态是后加的" → 原生融合 |
| Gemini 1.5 | 2024.02 | 100万token超长上下文 | "128K不够" → 1M上下文 |
| Gemini 2.0 | 2025.02 | Flash高效版本,Agent原生 | "推理成本高" → Flash加速 |
Gemini的演进逻辑:原生多模态 → 超长上下文 → 高效Agent。Google在用自己的方式定义"下一代模型"------不是更强,而是更全面更高效。
5.3 阿里Qwen系列
| 模型 | 时间 | 核心特点 | 解决的问题 |
|---|---|---|---|
| Qwen-7B/14B/72B | 2023.08-12 | 中文能力强 | "开源模型中文不行" → 中文专项优化 |
| Qwen1.5 | 2024.02 | 0.5B-110B全尺寸 | "开发者需要各种大小的模型" → 全尺寸覆盖 |
| Qwen2 | 2024.06 | GQA(Grouped Query Attention),代码能力提升 | "代码不行+推理缓存太大" → GQA减少缓存 |
| Qwen2.5 | 2024.09 | 0.5B-72B,开源最强之一 | "模型家族要更完整" → 更全的尺寸+更高质量 |
| Qwen3 | 2025.04 | MoE+Dense混合架构,思考模式(Thinking Mode) | "Dense模型太贵" → MoE稀疏激活;"推理深度不够" → 思考模式 |
Qwen的演进逻辑:中文优化 → 全尺寸覆盖 → GQA提升效率 → MoE+思考模式。始终围绕"中文开源最强"这个目标在演进。
5.4 Mistral系列
| 模型 | 时间 | 核心特点 | 解决的问题 |
|---|---|---|---|
| Mistral-7B | 2023.09 | Sliding Window Attention(滑动窗口注意力),7B最强 | "7B模型性能不够" → 滑动窗口提升效率 |
| Mixtral 8x7B | 2023.12 | 开源MoE先驱 | "开源没有好的MoE模型" → 第一个开源MoE |
| Mistral Large | 2024.02 | 闭源商用 | "企业需要闭源商用模型" → 闭源商用 |
| Mistral Small | 2024.09 | 轻量商用 | "企业也要轻量模型" → 小模型商用 |
Mistral的演进逻辑:小模型高性能 → MoE先驱 → 闭源商用 → 轻量化。欧洲力量,以"小而精"著称。
六、模型选型速查表(2026年)
| 需求场景 | 推荐模型 | 理由 |
|---|---|---|
| 本地开发测试 | Qwen2.5-7B / Llama3.1-8B | 小参数,容易跑起来 |
| 中文任务 | Qwen3 / DeepSeek-V3 | 中文训练数据充足 |
| 代码生成 | DeepSeek-Coder-V2 / Qwen2.5-Coder | 代码专项训练 |
| 推理任务 | DeepSeek-R1 / o1 / o3 | CoT推理模型 |
| Function Calling | GPT-4.1 / Claude Sonnet 4 | 对齐质量高,调用可靠 |
| 超长上下文 | Gemini 2.0 / Claude | 128K-1M上下文 |
| 低成本批量 | DeepSeek-V3 / DeepSeek-V4-Flash / GPT-4.1-mini | 价格极低 |
| 嵌入/检索 | BGE(BAAI General Embedding) / GTE(General Text Embedding) / text-embedding-3 | 专门优化的嵌入模型 |
| 数学/科学推理 | DeepSeek-Prover-V2 / o3 | 专项推理优化 |
| Agent开发 | GPT-4.1 / Claude Sonnet 4 / DeepSeek-V3 | 指令遵循+工具调用+推理 |
📝 作业
作业1:模型选型练习
场景:你要开发一个"智能客服Agent",需要:
- 理解用户问题(中文为主)
- 查询知识库(需要好的嵌入模型)
- 调用订单系统API(需要Function Calling)
- 生成回复(需要好的中文生成能力)
请选择合适的模型组合,并说明理由。
参考答案:
嵌入模型(Embedding Model,用于将文本转为向量做检索):
BGE-M3(BAAI General Embedding-Multilingual,多语言通用嵌入模型)
→ 中文检索效果最好,开源可本地部署
或 GTE-Qwen2(General Text Embedding based on Qwen2,基于Qwen2的通用文本嵌入)
→ 阿里出品,中文效果好
LLM选择(按优先级):
首选: DeepSeek-V3 API
理由: 中文能力强,Function Calling支持好,成本低
备选: Qwen2.5-72B API
理由: 中文原生,Function Calling能力好
本地部署备选: Qwen2.5-7B-Instruct + Ollama
理由: 数据敏感场景不能上云,7B可本地跑
高可靠性场景: GPT-4.1 / Claude Sonnet 4
理由: Function Calling最稳定,对齐质量最高
完整架构:
用户输入 → 嵌入模型(BGE-M3) → 向量检索(Vector Search) →
LLM(DeepSeek-V3) + Function Calling → 生成回复
作业2:阅读一篇模型技术报告
去HuggingFace或arXiv找一篇你感兴趣的模型的技术报告(推荐DeepSeek-V3或Llama 3),阅读其架构部分,写出3个你学到的新知识点。
参考答案(以DeepSeek-V3为例):
-
无辅助损失的负载均衡(Auxiliary-loss-free Load Balancing):传统MoE用辅助损失(Auxiliary Loss,一种额外的损失函数)来确保专家负载均衡(让每个专家被选到的次数差不多),但会损害模型性能(因为模型要同时优化主任务和负载均衡)。DeepSeek-V3改用偏置项(Bias Term)动态调整,不加额外损失函数,让模型专注于主任务。
-
FP8混合精度训练(FP8 Mixed Precision Training):用8位浮点数(Floating Point 8-bit,精度为8位的浮点数格式)替代BF16(Brain Float 16,精度为16位的浮点数格式)进行部分计算,显存减半、速度翻倍,几乎不影响模型质量。
-
多Token预测(Multi-Token Prediction,MTP):同时预测未来2个Token而非1个,提供更丰富的训练信号(模型不只看下一个词,还要看下下个词),推理时可用于推测解码(Speculative Decoding,用小模型快速预测多个Token,再用大模型验证,加速推理)。
下一篇文章见:AI系列文章导航目录-持续更新中