03-大模型智能体开发工程师:主流大模型家族与演进

系列文章导航:AI系列文章导航目录-持续更新中

第03课:主流大模型家族与演进

📝 本文摘要:本文梳理了三大模型阵营(OpenAI闭源标杆、开源阵营LLaMA/Mistral/DeepSeek/Qwen、其他闭源Claude/Gemini),详解各系列演进路线和核心创新(如DeepSeek的MLA和细粒度MoE、R1纯RL推理、Claude的Constitutional AI、Gemini的原生多模态、Qwen的MoE+思考模式),并提供2026年模型选型速查表。
了解模型家族,你才能在做技术选型时做出正确判断。每个家族有自己的设计哲学和擅长的领域。本课会帮你理解:为什么模型会这样演进?每一步演进解决了什么问题?


一、三大阵营概览

复制代码
                    ┌─ OpenAI阵营(闭源标杆)
                    │    GPT系列 → 定义了"大模型助手"的范式
                    │    o系列 → 开创"推理模型"新品类
                    │
大模型世界 ─────────┼─ 开源阵营(生态繁荣)
                    │    LLaMA → Meta的开源贡献,催生了整个开源生态
                    │    Mistral → 欧洲力量,MoE创新
                    │    DeepSeek → 中国力量,极致性价比
                    │    Qwen → 阿里,中文最强开源之一
                    │
                    └─ 其他闭源(差异化竞争)
                         Claude → Anthropic,安全与长上下文
                         Gemini → Google,多模态原生

为什么会有三条路线

  • 闭源标杆(OpenAI):商业模式驱动,高质量对齐 + 闭源API,定义了"产品好用"的标准
  • 开源阵营:社区驱动,降低使用门槛,催生了微调、部署、Agent开发工具链的繁荣
  • 其他闭源:各有差异化卖点------Claude的安全和长上下文,Gemini的原生多模态

二、OpenAI GPT系列

2.1 演进路线

模型 时间 参数 核心突破 解决的问题
GPT-1 2018.06 117M 验证预训练+微调范式 "NLP任务不需要从零训练,预训练模型微调就行"
GPT-2 2019.02 1.5B 规模扩大,少样本生成 "模型够大,不需要微调也能写文章"
GPT-3 2020.05 175B Few-shot in-context learning(少样本上下文学习) "不需要微调,在Prompt里给几个例子就行"
GPT-3.5 2022.11 ~175B RLHF对齐 → ChatGPT "模型输出不可控?RLHF让它变成好助手"
GPT-4 2023.03 未公开 多模态,推理能力飞跃 "纯文本不够,要能看图、理解复杂问题"
GPT-4o 2024.05 未公开 端到端多模态,低延迟 "拼接的多模态不够原生,延迟要低"
o1 2024.09 未公开 思维链推理模型(CoT Reasoning Model) "简单问答不够,需要复杂多步推理"
o3 2025.01 未公开 更强推理,代码/数学/科学 "推理深度还不够,要接近专家水平"
GPT-4.1 2025.04 未公开 指令遵循增强 "Agent需要模型严格按指令行事"

2.2 GPT系列的设计哲学

  • Decoder-only:从GPT-1就坚持自回归生成路线
  • 规模优先:用规模换能力,Scaling Laws(缩放定律)的忠实践行者
  • 对齐驱动:GPT-3→GPT-3.5的核心不是参数量,而是RLHF------模型从"能力很强但不好用"变成"能力很强且好用"

2.3 对开发者的意义

OpenAI定义了大模型应用的API范式:

  • Chat Completions API(对话补全API)→ 全行业跟进
  • Function Calling(函数调用)→ Agent开发的基础能力
  • Structured Outputs(结构化输出)→ 可靠的输出控制

关键认知:OpenAI的每次升级都在解决上一代的问题------GPT-3能力够但不好控 → RLHF;GPT-4推理强但慢且贵 → o1的思维链;o1不够听话 → GPT-4.1指令遵循增强。


三、Meta LLaMA系列

3.1 为什么LLaMA如此重要

LLaMA不是最强的模型,但它是开源大模型运动的起点。LLaMA weights(模型权重)泄露后,整个开源社区基于它发展出了Vicuna、Alpaca、WizardLM等几十个变体,证明了开源模型可以商用。

解决的问题:大模型不再只有OpenAI能用------任何人都可以在本地部署、微调、二次开发。

3.2 演进路线

模型 时间 核心变化 解决的问题
LLaMA 2023.02 7B-65B,只用公开数据训练 "开源模型能不能行?" → 能
Llama 2 2023.07 7B-70B,商用许可,Chat版本 "开源能不能商用?" → 能
Llama 3 2024.04 8B/70B,tokenizer扩展到128K词表 "词表太小效率低" → 扩大词表
Llama 3.1 2024.07 8B/70B/405B,405B开源最大 "开源能不能更大?" → 405B
Llama 3.2 2024.09 多模态版本,1B/3B小模型 "开源也要端侧小模型+多模态"
Llama 4 2025.04 MoE架构,Scout/Maverick "Dense模型太大太贵" → MoE稀疏激活

3.3 关键设计选择

  • 词表扩展(Tokenizer Vocabulary Expansion):Llama 3将词表从32K扩展到128K,提升了多语言和代码的编码效率(词表越大,每个Token平均编码的字符越多,序列越短,推理越快)
  • 训练数据量:LLaMA用1.4T tokens,Llama 2用2T,Llama 3用15T+------Chinchilla定律( Hoffmann et al., 2022)的实践:更多数据训练更小模型效果更好
  • GQA(Grouped Query Attention,分组查询注意力):多个Query头共享同一组Key和Value头,减少KV Cache大小,提升推理效率

LLaMA的演进逻辑:证明开源可行 → 开源商用 → 扩大词表和参数 → 引入MoE降低成本。每一步都是在解决"开源模型如何更实用"的问题。


四、DeepSeek系列

4.1 为什么DeepSeek值得关注

DeepSeek用极低的训练成本实现了顶尖性能,打破了"大模型必须烧巨资"的认知。

解决的问题:大模型训练成本过高(GPT-4据传超1亿美元),DeepSeek-V3仅557万美元,性能却比肩顶级模型。

4.2 演进路线

模型 时间 核心创新 解决的问题
DeepSeek-LLM 2024.01 基础模型 "从零开始"
DeepSeek-MoE 2024.01 细粒度MoE架构 "标准MoE专家太少组合不够灵活" → 64个小专家选6个
DeepSeek-V2 2024.05 MLA(Multi-head Latent Attention,多头潜在注意力) "KV Cache太大" → 压缩到低维潜在表示
DeepSeek-V3 2024.12 671B MoE,训练成本仅557万美元 "训练太贵" → FP8混合精度+多Token预测
DeepSeek-R1 2025.01 开源推理模型,纯RL训练出CoT "思维链需要人工写示例?" → RL让模型自己探索
DeepSeek-R1-0528 2025.05 R1迭代版本,推理能力增强 "R1还不够强" → 进一步优化
DeepSeek-V3.1 2025.08 V3迭代 持续优化基础模型
DeepSeek-V4 2026.04 Pro/Flash系列,训练效率大幅提升 "推理速度和成本" → Flash版加速推理
DeepSeek-Prover-V2 2025.04 数学证明专用模型 "通用模型做数学证明不够专业" → 专项优化

4.3 关键技术创新详解

MLA(Multi-head Latent Attention,多头潜在注意力)

复制代码
标准注意力: 每个Token存完整的K和V,序列越长缓存越大
           → 长序列推理成本极高

MLA: 将K和V压缩到低维潜在表示(Latent Representation)
     → KV Cache大幅减少
     → 推理成本降低,支持更长上下文
     
原理: 不直接缓存K和V,而是缓存它们的低维压缩表示
     计算注意力时,从压缩表示还原回K和V
     用少量精度换取大量显存节省

DeepSeekMoE细粒度专家

复制代码
标准MoE(如Mixtral): 8个大专家,选2个
  → 专家少,组合方式有限(C(8,2)=28种)

DeepSeekMoE: 64个小专家,选6个(更灵活的组合)
  → C(64,6) ≈ 7亿种组合,模型更灵活
  
DeepSeek-V3: 256个路由专家(Routing Expert)+ 1个共享专家(Shared Expert),选8个
  → 共享专家始终激活,处理通用知识
  → 路由专家动态选择,处理专门知识
  → 总参数671B,激活37B

R1的纯RL(Reinforcement Learning,强化学习)训练

复制代码
传统CoT: 人工写思维链示例 → SFT(Supervised Fine-Tuning,监督微调)教模型模仿
  → 模型只是模仿,不会真正"思考"

R1的做法: 直接用RL,让模型自己探索出推理过程
  → 不给示例,只给奖励信号(答案对就奖励)
  → 模型自发学会了"aha moment"(自我纠错)------遇到错误回退检查
  → 真正学会了推理,而非模仿推理

DeepSeek的演进逻辑:基础模型 → MoE架构创新 → MLA减少缓存 → V3极致降本 → R1纯RL推理 → V4全面进化。每一步都在解决"如何让大模型更好更便宜"这个核心问题。


五、其他重要模型

5.1 Anthropic Claude系列

模型 时间 核心特点 解决的问题
Claude 1 2023.03 Constitutional AI(宪法AI)对齐方法 "RLHF需要大量人工标注" → 模型自我批评
Claude 2 2023.07 100K上下文 "上下文太短" → 10万token
Claude 3 2024.03 Haiku/Sonnet/Opus三档 "不同场景需要不同大小模型" → 三档选择
Claude 3.5 2024.06-10 Sonnet性价比极高,Artifacts "Agent需要动态工具" → Artifacts生成
Claude 4 2025.05 Opus 4 / Sonnet 4,Agent能力增强 "Agent需要更强的自主执行能力"

核心差异:Constitutional AI(宪法AI对齐)让模型通过"自我批评"来对齐------模型生成回答,自己批评,修改,再输出。减少了对人工标注的依赖。长上下文和安全性是Claude的标签。

Claude的演进逻辑:对齐方法创新(Constitutional AI)→ 长上下文 → 三档模型 → Agent能力(Artifacts、计算机使用)。一直围绕"安全可用"和"Agent友好"在演进。

5.2 Google Gemini系列

模型 时间 核心特点 解决的问题
Gemini 1.0 2023.12 原生多模态(不是拼接,是模型本身理解多模态) "多模态是后加的" → 原生融合
Gemini 1.5 2024.02 100万token超长上下文 "128K不够" → 1M上下文
Gemini 2.0 2025.02 Flash高效版本,Agent原生 "推理成本高" → Flash加速

Gemini的演进逻辑:原生多模态 → 超长上下文 → 高效Agent。Google在用自己的方式定义"下一代模型"------不是更强,而是更全面更高效。

5.3 阿里Qwen系列

模型 时间 核心特点 解决的问题
Qwen-7B/14B/72B 2023.08-12 中文能力强 "开源模型中文不行" → 中文专项优化
Qwen1.5 2024.02 0.5B-110B全尺寸 "开发者需要各种大小的模型" → 全尺寸覆盖
Qwen2 2024.06 GQA(Grouped Query Attention),代码能力提升 "代码不行+推理缓存太大" → GQA减少缓存
Qwen2.5 2024.09 0.5B-72B,开源最强之一 "模型家族要更完整" → 更全的尺寸+更高质量
Qwen3 2025.04 MoE+Dense混合架构,思考模式(Thinking Mode) "Dense模型太贵" → MoE稀疏激活;"推理深度不够" → 思考模式

Qwen的演进逻辑:中文优化 → 全尺寸覆盖 → GQA提升效率 → MoE+思考模式。始终围绕"中文开源最强"这个目标在演进。

5.4 Mistral系列

模型 时间 核心特点 解决的问题
Mistral-7B 2023.09 Sliding Window Attention(滑动窗口注意力),7B最强 "7B模型性能不够" → 滑动窗口提升效率
Mixtral 8x7B 2023.12 开源MoE先驱 "开源没有好的MoE模型" → 第一个开源MoE
Mistral Large 2024.02 闭源商用 "企业需要闭源商用模型" → 闭源商用
Mistral Small 2024.09 轻量商用 "企业也要轻量模型" → 小模型商用

Mistral的演进逻辑:小模型高性能 → MoE先驱 → 闭源商用 → 轻量化。欧洲力量,以"小而精"著称。


六、模型选型速查表(2026年)

需求场景 推荐模型 理由
本地开发测试 Qwen2.5-7B / Llama3.1-8B 小参数,容易跑起来
中文任务 Qwen3 / DeepSeek-V3 中文训练数据充足
代码生成 DeepSeek-Coder-V2 / Qwen2.5-Coder 代码专项训练
推理任务 DeepSeek-R1 / o1 / o3 CoT推理模型
Function Calling GPT-4.1 / Claude Sonnet 4 对齐质量高,调用可靠
超长上下文 Gemini 2.0 / Claude 128K-1M上下文
低成本批量 DeepSeek-V3 / DeepSeek-V4-Flash / GPT-4.1-mini 价格极低
嵌入/检索 BGE(BAAI General Embedding) / GTE(General Text Embedding) / text-embedding-3 专门优化的嵌入模型
数学/科学推理 DeepSeek-Prover-V2 / o3 专项推理优化
Agent开发 GPT-4.1 / Claude Sonnet 4 / DeepSeek-V3 指令遵循+工具调用+推理

📝 作业

作业1:模型选型练习

场景:你要开发一个"智能客服Agent",需要:

  1. 理解用户问题(中文为主)
  2. 查询知识库(需要好的嵌入模型)
  3. 调用订单系统API(需要Function Calling)
  4. 生成回复(需要好的中文生成能力)

请选择合适的模型组合,并说明理由。

参考答案

复制代码
嵌入模型(Embedding Model,用于将文本转为向量做检索):
  BGE-M3(BAAI General Embedding-Multilingual,多语言通用嵌入模型)
    → 中文检索效果最好,开源可本地部署
  或 GTE-Qwen2(General Text Embedding based on Qwen2,基于Qwen2的通用文本嵌入)
    → 阿里出品,中文效果好

LLM选择(按优先级):
  首选: DeepSeek-V3 API
    理由: 中文能力强,Function Calling支持好,成本低
    
  备选: Qwen2.5-72B API
    理由: 中文原生,Function Calling能力好
    
  本地部署备选: Qwen2.5-7B-Instruct + Ollama
    理由: 数据敏感场景不能上云,7B可本地跑
    
  高可靠性场景: GPT-4.1 / Claude Sonnet 4
    理由: Function Calling最稳定,对齐质量最高

完整架构:
  用户输入 → 嵌入模型(BGE-M3) → 向量检索(Vector Search) → 
  LLM(DeepSeek-V3) + Function Calling → 生成回复

作业2:阅读一篇模型技术报告

去HuggingFace或arXiv找一篇你感兴趣的模型的技术报告(推荐DeepSeek-V3或Llama 3),阅读其架构部分,写出3个你学到的新知识点。

参考答案(以DeepSeek-V3为例)

  1. 无辅助损失的负载均衡(Auxiliary-loss-free Load Balancing):传统MoE用辅助损失(Auxiliary Loss,一种额外的损失函数)来确保专家负载均衡(让每个专家被选到的次数差不多),但会损害模型性能(因为模型要同时优化主任务和负载均衡)。DeepSeek-V3改用偏置项(Bias Term)动态调整,不加额外损失函数,让模型专注于主任务。

  2. FP8混合精度训练(FP8 Mixed Precision Training):用8位浮点数(Floating Point 8-bit,精度为8位的浮点数格式)替代BF16(Brain Float 16,精度为16位的浮点数格式)进行部分计算,显存减半、速度翻倍,几乎不影响模型质量。

  3. 多Token预测(Multi-Token Prediction,MTP):同时预测未来2个Token而非1个,提供更丰富的训练信号(模型不只看下一个词,还要看下下个词),推理时可用于推测解码(Speculative Decoding,用小模型快速预测多个Token,再用大模型验证,加速推理)。


下一篇文章见:AI系列文章导航目录-持续更新中

相关推荐
@蔓蔓喜欢你10 小时前
ES 模块:JavaScript 模块化的标准方案
人工智能·ai
想你依然心痛10 小时前
HarmonyOS 6 悬浮导航 + 沉浸光感:打造鸿蒙智能体驱动的沉浸式音乐创作协作工坊
华为·ar·harmonyos·智能体
笨蛋©10 小时前
[实战] 制造业质量控制中气泡图(Balloon Drawing)的标准化生成与检验计划集成
ai·数字化·质量管理·制造业·图纸识别
必胜刻10 小时前
Go 调用Coze工作流实现 AI 游戏生成
开发语言·ai·golang·gin
feasibility.10 小时前
Qwen3-VL-Seg 深度解读:当多模态大模型学会“像素级精准手术“
人工智能·深度学习·计算机视觉·llm·图像分割·多模态·vlm
Old Uncle Tom10 小时前
Skill 综述
agent
天若有情67311 小时前
Deepseek-V4-Flash-20260423 深度评测与实战指南
java·大数据·网络·ai
codefan※11 小时前
7 个Prompt 框架汇总:从 Chain of Thought 到 ReAct + PoT
前端·react.js·ai·llm·prompt·prompt工程·思维链
Bigger11 小时前
架构解密:mini-cc 的核心设计思路
前端·agent·ai编程