【LLM技术全景】阶段总结:基础篇知识图谱与学习路径

摘要 :本文是《LLM技术全景:从Token到部署》系列第八篇,也是第一阶段"基础认知篇"的收官总结。本文系统梳理前7篇文章的核心知识点,构建从Token到推理的完整知识图谱 ,并从"算法工程师""应用开发者""AI产品经理"三类读者视角,给出差异化的学习路径建议

阅读收获:① 掌握大模型基础认知的7大核心模块及其关联;② 获得可打印的思维导图式知识图谱;③ 找到适合自己的下一阶段学习路径;④ 理解从"会用模型"到"懂原理"的关键转折点。


一、第一阶段回顾:我们学了什么?

从5月26日到6月18日,历时约3周,基础认知篇的8篇文章覆盖了从"什么是LLM"到"模型如何推理"的完整链路。

复制代码
第一阶段学习地图(时间线)

5月26日  第1篇  ██  什么是大语言模型?从零认识AI新范式
5月28日  第2篇  ██  大模型技术栈全景:从Token到部署
6月01日  第3篇  ██  Transformer架构深度解析:Encoder-Decoder
6月04日  第4篇  ██  预训练与微调:大模型如何"学习"
6月08日  第5篇  ██  规模定律与模型演进:为什么越大越强?
6月11日  第6篇  ██  开源大模型生态:如何选择基座模型
6月15日  第7篇  ██  大模型能力探秘:ICL与CoT
6月18日  第8篇  ██  阶段总结:知识图谱与学习路径  ← 本文
篇号 标题 核心贡献 关键概念
1 什么是大语言模型 建立整体认知框架 LLM定义、发展历程、应用场景图谱
2 大模型技术栈全景 梳理完整技术链路 Tokenization → Embedding → 预训练 → 部署
3 Transformer架构深度解析 理解核心引擎 Self-Attention、位置编码、Encoder、Decoder
4 预训练与微调 理解模型"学习机制" Next Token Prediction、SFT、RLHF、DPO
5 规模定律与模型演进 理解"大力出奇迹" Scaling Law、Chinchilla定律、模型演进史
6 开源大模型生态 掌握模型选型 LLaMA vs Qwen vs DeepSeek vs GLM
7 ICL与CoT 理解模型推理能力 In-Context Learning、Chain-of-Thought、涌现

二、基础篇知识图谱

以下是整个第一阶段的知识体系全景图,展示了7大核心模块及其相互关联。

复制代码
                    ┌──────────────────────────────────────────────┐
                    │         大模型基础认知 知识图谱              │
                    └──────────────────────────────────────────────┘
                                        │
            ┌───────────┬───────────────┼───────────────┬───────────┐
            │           │               │               │           │
            ▼           ▼               ▼               ▼           ▼
      ┌──────────┐ ┌──────────┐ ┌──────────────┐ ┌──────────┐ ┌──────────┐
      │ ① LLM   │ │② 技术栈  │ │ ③ Transformer│ │ ④ 训练   │ │ ⑤ 规模   │
      │  是什么  │ │  全景    │ │   架构       │ │   范式   │ │   定律   │
      └────┬─────┘ └────┬─────┘ └──────┬───────┘ └────┬─────┘ └────┬─────┘
           │            │              │              │            │
           │     ┌──────┘       ┌──────┘        ┌─────┘      ┌─────┘
           │     │              │               │            │
           ▼     ▼              ▼               ▼            ▼
      ┌─────────────────────────────────────────────────────────────┐
      │                    ⑥ 开源模型生态                           │
      │        LLaMA  ·  Qwen  ·  DeepSeek  ·  GLM  ·  Phi         │
      └──────────────────────────┬──────────────────────────────────┘
                                 │
                                 ▼
      ┌─────────────────────────────────────────────────────────────┐
      │                    ⑦ 模型能力应用                           │
      │          In-Context Learning  ·  Chain-of-Thought           │
      │              涌现能力  ·  Prompt工程                       │
      └─────────────────────────────────────────────────────────────┘

    图例:
    ──→ 依赖关系(必须前置理解)
    ─ ─→ 弱关联(可独立学习)

知识点依赖关系详解

纵向依赖(必须按序学习)

复制代码
第1篇(认知) → 第2篇(技术栈) → 第3篇(Transformer) → 第4篇(训练)
                                                    ↘
                                        第5篇(规模) → 第7篇(ICL/CoT)
                                                    ↗
                                    第6篇(选型)

横向关联(可交叉阅读)

关联组合 联动价值
第3篇(架构)+ 第5篇(演进) 理解"为什么Transformer能胜出"
第4篇(训练)+ 第7篇(ICL) 理解"微调 vs In-Context Learning的边界"
第5篇(规模)+ 第6篇(选型) 理解"为什么选择大模型而非小模型"
第2篇(技术栈)+ 第6篇(选型) 理解"Tokenization如何影响中文能力"

三、核心知识点速查表

3.1 必背公式

公式 来源 含义
Attention(Q,K,V) = softmax(QK^T/√d_k)V 第3篇 Transformer的核心计算,Self-Attention的精确定义
L(N) = (N_c/N)^α_N + E 第5篇 Kaplan规模定律:损失随参数量幂律下降
L(D) = (D_c/D)^α_D + E 第5篇 Chinchilla定律:损失随数据量幂律下降
D/N ≈ 20 第5篇 Chinchilla最优训练比例:每个参数配20个Token
显存 ≈ 参数量 × 2(FP16) / 1(INT8) / 0.5(INT4) 字节 第6篇 部署显存的快速估算公式

3.2 关键数据点

数据点 来源 为什么重要
GPT-3参数 175B 第1篇 开启"大模型时代"的标志性规模
GPT-3训练数据 45TB / 300B tokens 第1篇 人类知识总量的一个近似
LLaMA-3训练数据 15T tokens 第5篇 最大规模公开训练数据集
Attention复杂度 O(n²) 第3篇 长上下文的根本瓶颈
涌现阈值(推理) ~50B参数 第7篇 复杂推理能力出现的分水岭
涌现阈值(ICL) ~10B参数 第7篇 In-Context Learning开始有效
中文最好模型 Qwen-2.5-72B 第6篇 C-Eval: 86.5分
性价比之王 DeepSeek-V3 第6篇 MoE:671B总参数,37B激活

3.3 技术架构速查

架构组件 标准选择 替代方案 出现篇目
归一化 RMSNorm LayerNorm, BatchNorm 第3篇
激活函数 SwiGLU (LLaMA) GELU, ReLU 第3篇
位置编码 RoPE (LLaMA) 正弦位置编码, ALiBi 第3篇
注意力机制 Multi-Head Attention GQA, MQA 第3篇
Token化 BPE (GPT) / SentencePiece (LLaMA) WordPiece (BERT) 第2篇
训练范式 预训练 → SFT → 对齐 直接SFT, 持续预训练 第4篇
对齐方法 DPO RLHF (PPO), KTO 第4篇

四、读者学习路径:你现在处于哪个阶段?

读者画像与路径匹配

复制代码
读者A:算法工程师/研究员
  目标:深入理解原理,能复现关键实验
  现状:有一定ML/DL基础,需要补齐LLM专项知识
  ↓
  路径A:深度优先路径

读者B:应用开发者
  目标:能用模型做产品,会调用API和微调
  现状:有编程基础,需要快速上手
  ↓
  路径B:广度优先路径

读者C:AI产品经理/技术管理者
  目标:能评估技术方案,做合理决策
  现状:不需要写代码,但要理解技术边界
  ↓
  路径C:决策者路径

路径A:算法工程师深度路径

复制代码
阶段一(已完成):基础认知篇
  ✓ 第1-8篇全部读完
  自检:能否手写Self-Attention的前向传播?

阶段二(下阶段):技术原理篇(第9-20篇)
  重点文章:
  ★ 第9篇  GPT架构演进:从Transformer到GPT-4
  ★ 第10篇 LLaMA架构解析:RMSNorm、SwiGLU、RoPE
  ★ 第11篇 MoE:专家路由、DeepSeek-V3
  ★ 第12篇 长上下文技术:位置插值、FlashAttention
  ★ 第13篇 RLHF与DPO:对齐技术深度对比
  ★ 第14篇 KV Cache与推理优化

  自检:能否解释GPT和LLaMA架构的核心差异?

阶段三:应用实战篇(第21-32篇)
  重点文章:
  ★ 第23篇 RAG完整指南
  ★ 第24篇 Fine-tuning实战
  ★ 第26篇 LangGraph工作流

阶段四:工程实践篇(第33-44篇)
  重点文章:
  ★ 第33篇 量化完全指南
  ★ 第35篇 vLLM深度解析
  ★ 第36篇 TensorRT-LLM实战

阶段五:前沿技术篇(第45-62篇)
  全部推荐

推荐额外学习:
  - 论文阅读:Attention Is All You Need、GPT-3、LLaMA
  - 动手实践:训练一个小型GPT(Andrej Karpathy的nanoGPT)
  - 框架掌握:Hugging Face Transformers、vLLM

路径B:应用开发者广度路径

复制代码
阶段一(已完成):基础认知篇
  必读:第1-4篇、第6-7篇
  选读:第5篇(规模定律细节可跳过)
  自检:能否区分ICL和微调的使用场景?

阶段二(下阶段):技术原理篇
  必读:
  ★ 第12篇 长上下文技术 ← 直接影响Prompt设计
  ★ 第13篇 RLHF与DPO ← 理解模型行为
  其他选读

阶段三:应用实战篇(核心阶段!)
  ★ 第21篇 Prompt Engineering
  ★ 第22篇 Function Calling与Tool Use
  ★ 第23篇 RAG完整指南
  ★ 第24篇 Fine-tuning实战
  ★ 第25篇 LangChain入门
  ★ 第26篇 LangGraph工作流
  ★ 第27篇 Multi-Agent系统
  ★ 第29篇 LLM安全攻防

阶段四:工程实践篇
  必读:
  ★ 第37篇 大模型服务化架构
  ★ 第39篇 本地部署入门
  ★ 第43篇 开源LLM生态工具链

阶段五:前沿技术篇
  选读感兴趣的方向

推荐额外学习:
  - 动手项目:用LangChain/RAG构建一个文档问答系统
  - 工具掌握:OpenAI API、Ollama、LangChain
  - 参考资源:LangChain官方文档、OpenAI Cookbook

路径C:决策者路径

复制代码
阶段一(已完成):基础认知篇
  重点理解:
  - 模型能做/不能做什么(第1篇)
  - 训练流程与成本(第4篇)
  - 开源 vs 闭源选型(第6篇)
  - Prompt的重要性(第7篇)

阶段二(下阶段):技术原理篇
  必读:第13篇(RLHF与DPO)、第18篇(多模态)
  其他可快速浏览

阶段三:应用实战篇
  必读:
  ★ 第21篇 Prompt Engineering
  ★ 第23篇 RAG
  ★ 第29篇 LLM安全攻防
  ★ 第31篇 合成数据与数据治理

阶段四:工程实践篇
  必读:
  ★ 第37篇 服务化架构与成本控制
  ★ 第38篇 LLMOps监控运维

阶段五:前沿技术篇
  必读:
  ★ 第59篇 2026技术趋势展望

核心竞争力:
  不需要写代码,但需要:
  1. 准确判断"这个需求用LLM能做到什么程度"
  2. 评估技术方案的成本与时间
  3. 理解技术风险(幻觉、安全、合规)
  4. 对团队提出正确的技术要求

五、第一阶段学习自检清单

完成基础认知篇后,请逐一检查以下问题。如果大部分能回答,说明基础已经夯实;如果某题有困难,回到对应文章重读相关章节。

概念理解题

# 问题 对应篇目 参考答案页
1 LLM和传统NLP模型(如LSTM)的本质区别是什么? 第1篇 §1.2
2 Tokenization为什么对中文不友好?BPE的解决思路是什么? 第2篇 §2.2
3 Self-Attention中除以√d_k的作用是什么? 第3篇 §3.2
4 预训练、SFT、RLHF三阶段分别解决什么问题? 第4篇 §2-4
5 Kaplan定律和Chinchilla定律的核心差异是什么? 第5篇 §2.1-2.2
6 MoE架构的"稀疏激活"是什么?为什么能降低成本? 第6篇 §2.3
7 ICL为什么不需要梯度更新却能让模型"学习"? 第7篇 §2.3

实践应用题

# 问题 对应篇目
8 如果一个7B模型的中文能力很差,你会尝试哪些优化手段? 第6篇 §3.3
9 需要部署一个70B模型做推理,单张A100(80GB)够吗?怎么办? 第6篇 §4.1
10 某个推理任务,Zero-shot准确率50%,你会如何一步步提升? 第7篇 §5.2
11 什么时候选微调而不是ICL?反之呢? 第7篇 §6

架构理解题

# 问题 对应篇目
12 Encoder-Decoder和Decoder-only架构的适用场景有何不同? 第3篇 §4
13 为什么GPT系列坚持Decoder-only而BERT用Encoder-only? 第5篇 §4.1
14 RoPE相比正弦位置编码有什么优势? 第3篇 §2.3

六、常见误区与纠正

经过7篇文章的学习和评论区交流,整理了以下初学者最常踩的坑:

误区 正确理解 出处
❌ "大模型就是ChatGPT" 大模型是一个技术类别,ChatGPT是其中一个产品 第1篇
❌ "Pretrain就是让模型看更多书" 预训练是Next Token Prediction的自监督学习,本质是压缩知识 第4篇
❌ "参数越多一定越好" Chinchilla定律证明:数据量和参数量需要匹配;GPT-3(D/N≈1.7)训练不足 第5篇
❌ "微调就是改一改参数" 微调有三种范式(全参/LoRA/Prompt Tuning),影响截然不同 第4篇
❌ "所有任务都需要微调" ICL在很多场景下已有优秀表现;用Zero-shot CoT先试水 第7篇
❌ "开源模型一定比闭源弱" DeepSeek-V3、Qwen-2.5在某些领域已超越GPT-4 第6篇
❌ "涌现能力是模型突然变聪明" 涌现的"突然性"部分是评估指标造成的假象 第7篇
❌ "Self-Attention就是算相关性" 更精确地说,是Query和Key的向量相似度,除以√d_k防止梯度消失 第3篇

七、第二阶段预告:技术原理篇

从第9篇开始,我们将进入第二阶段:技术原理篇(共12篇,约1.5个月)。如果说基础篇是"知其然",原理篇就是"知其所以然"。

第二阶段文章列表

复制代码
第9篇  → GPT系列架构演进:从Transformer到GPT-4
第10篇 → LLaMA架构解析:开源大模型的技术典范
第11篇 → 混合专家模型(MoE):用更少参数实现更强性能
第12篇 → 长上下文技术全景:突破窗口限制的方法论
第13篇 → RLHF与DPO:大模型对齐技术的两条路径
第14篇 → KV Cache与推理优化:让模型生成更快
第15篇 → 混合精度与分布式训练:训练大模型的工程奥秘
第16篇 → 归一化与激活函数:LLM中的关键设计选择
第17篇 → 模型幻觉与评估:如何衡量和改进LLM质量
第18篇 → 多模态大模型:当语言模型学会"看"和"听"
第19篇 → 状态空间模型与Mamba:Transformer的挑战者
第20篇 → 阶段总结:技术原理篇核心知识回顾

第二阶段重点攻克的问题

复制代码
基础篇遗留的"为什么" → 原理篇给出答案

Q: 为什么Transformer要用LayerNorm而不是BatchNorm?
A: → 第16篇

Q: 为什么GPT用Decoder-only而不用Encoder-Decoder?
A: → 第9篇

Q: DeepSeek-V3的671B参数为什么推理成本比70B还低?
A: → 第11篇

Q: 如何让模型理解百万Token的长文档?
A: → 第12篇

Q: 为什么DPO比RLHF更简单但效果不差?
A: → 第13篇

Q: 两张4090能训练7B模型吗?需要什么技巧?
A: → 第15篇

原理篇学习难度分级

复制代码
🟢 入门级(无需深厚数学基础):
  第9篇(GPT演进)、第18篇(多模态入门)

🟡 进阶级(需要基础ML知识):
  第11篇(MoE)、第12篇(长上下文)、第14篇(KV Cache)
  第17篇(评估)、第19篇(Mamba)

🔴 深度级(需要较好的数学和系统基础):
  第10篇(LLaMA架构细节)、第13篇(RLHF/DPO数学)
  第15篇(分布式训练)、第16篇(归一化/激活函数)

八、推荐学习资源汇总

必读论文(按学习阶段)

阶段 论文 为什么读
基础篇 Attention Is All You Need (Vaswani et al., 2017) Transformer原点
基础篇 Language Models are Few-Shot Learners (Brown et al., 2020) GPT-3与ICL
基础篇 Training Compute-Optimal Large Language Models (Hoffmann et al., 2022) Chinchilla定律
原理篇 LLaMA: Open and Efficient Foundation Language Models (Touvron et al., 2023) LLaMA架构
原理篇 Direct Preference Optimization (Rafailov et al., 2023) DPO算法
原理篇 FlashAttention (Dao et al., 2022) 高效注意力机制

动手项目推荐

项目 难度 时间 学到什么
nanoGPT ⭐⭐ 1天 从零训练小型GPT
llama.c 半天 纯C语言推理LLaMA
LangChain RAG教程 ⭐⭐ 1-2天 构建RAG应用
vLLM部署 ⭐⭐⭐ 半天 高性能推理服务
Unsloth微调 ⭐⭐ 1天 QLoRA微调大模型

推荐关注的信息源

复制代码
论文追踪:
  arXiv cs.CL / cs.AI 每日更新
  Hugging Face Daily Papers

中文技术社区:
  知乎:苏剑林、唐解元、李rumor
  公众号:机器之心、量子位、新智元

开源动态:
  GitHub Trending (daily)
  Hugging Face Models Trending
  Reddit r/LocalLLaMA(本地部署讨论)

九、总结

基础篇核心收获

复制代码
┌─────────────────────────────────────────────────────────────┐
│                                                             │
│  ① 知道LLM是什么、能做什么、不能做什么                       │
│  ② 理解从Token到生成输出的完整技术栈                        │
│  ③ 掌握Self-Attention的核心计算和直观理解                    │
│  ④ 理解预训练→SFT→RLHF/DPO的训练范式                       │
│  ⑤ 能用Scaling Law解释"为什么模型越来越大"                  │
│  ⑥ 能根据任务选择合适的开源模型                              │
│  ⑦ 会编写高效的ICL+CoT Prompt                               │
│                                                             │
│  → 你已经从一个"只会用ChatGPT"的用户,                       │
│    进阶为一个"理解大模型原理"的技术人。                      │
│                                                             │
└─────────────────────────────────────────────────────────────┘

从"会用"到"懂"的关键转折

基础篇的全部努力,指向一个核心目标:让你不再"迷信"大模型,而是"理解"大模型

  • 当别人说"GPT真神奇"时,你知道它本质是Next Token Prediction
  • 当同事问"为什么模型回答错了"时,你能追溯到训练数据和Prompt
  • 当老板说"我们也训练一个大模型"时,你能估算成本和可行性
  • 当要选择一个基座模型时,你能给出数据驱动的建议

这就是第一阶段的价值。

写在最后

基础认知篇是系列博客的起点,也是最关键的部分------它为后续的所有技术深度讨论建立了共通的语境和概念框架。

如果你已经完整读完前8篇,并且能回答自检清单中的大部分问题------恭喜你,你已经具备了继续深入学习大模型技术的坚实基础。

从下周开始,我们将进入更硬核的技术原理篇------一起解开大模型内部的秘密。


《LLM技术全景》基础认知篇 完 · 下周技术原理篇见