
摘要 :本文是《LLM技术全景:从Token到部署》系列第八篇,也是第一阶段"基础认知篇"的收官总结。本文系统梳理前7篇文章的核心知识点,构建从Token到推理的完整知识图谱 ,并从"算法工程师""应用开发者""AI产品经理"三类读者视角,给出差异化的学习路径建议。
阅读收获:① 掌握大模型基础认知的7大核心模块及其关联;② 获得可打印的思维导图式知识图谱;③ 找到适合自己的下一阶段学习路径;④ 理解从"会用模型"到"懂原理"的关键转折点。
一、第一阶段回顾:我们学了什么?
从5月26日到6月18日,历时约3周,基础认知篇的8篇文章覆盖了从"什么是LLM"到"模型如何推理"的完整链路。
第一阶段学习地图(时间线)
5月26日 第1篇 ██ 什么是大语言模型?从零认识AI新范式
5月28日 第2篇 ██ 大模型技术栈全景:从Token到部署
6月01日 第3篇 ██ Transformer架构深度解析:Encoder-Decoder
6月04日 第4篇 ██ 预训练与微调:大模型如何"学习"
6月08日 第5篇 ██ 规模定律与模型演进:为什么越大越强?
6月11日 第6篇 ██ 开源大模型生态:如何选择基座模型
6月15日 第7篇 ██ 大模型能力探秘:ICL与CoT
6月18日 第8篇 ██ 阶段总结:知识图谱与学习路径 ← 本文
| 篇号 | 标题 | 核心贡献 | 关键概念 |
|---|---|---|---|
| 1 | 什么是大语言模型 | 建立整体认知框架 | LLM定义、发展历程、应用场景图谱 |
| 2 | 大模型技术栈全景 | 梳理完整技术链路 | Tokenization → Embedding → 预训练 → 部署 |
| 3 | Transformer架构深度解析 | 理解核心引擎 | Self-Attention、位置编码、Encoder、Decoder |
| 4 | 预训练与微调 | 理解模型"学习机制" | Next Token Prediction、SFT、RLHF、DPO |
| 5 | 规模定律与模型演进 | 理解"大力出奇迹" | Scaling Law、Chinchilla定律、模型演进史 |
| 6 | 开源大模型生态 | 掌握模型选型 | LLaMA vs Qwen vs DeepSeek vs GLM |
| 7 | ICL与CoT | 理解模型推理能力 | In-Context Learning、Chain-of-Thought、涌现 |
二、基础篇知识图谱
以下是整个第一阶段的知识体系全景图,展示了7大核心模块及其相互关联。
┌──────────────────────────────────────────────┐
│ 大模型基础认知 知识图谱 │
└──────────────────────────────────────────────┘
│
┌───────────┬───────────────┼───────────────┬───────────┐
│ │ │ │ │
▼ ▼ ▼ ▼ ▼
┌──────────┐ ┌──────────┐ ┌──────────────┐ ┌──────────┐ ┌──────────┐
│ ① LLM │ │② 技术栈 │ │ ③ Transformer│ │ ④ 训练 │ │ ⑤ 规模 │
│ 是什么 │ │ 全景 │ │ 架构 │ │ 范式 │ │ 定律 │
└────┬─────┘ └────┬─────┘ └──────┬───────┘ └────┬─────┘ └────┬─────┘
│ │ │ │ │
│ ┌──────┘ ┌──────┘ ┌─────┘ ┌─────┘
│ │ │ │ │
▼ ▼ ▼ ▼ ▼
┌─────────────────────────────────────────────────────────────┐
│ ⑥ 开源模型生态 │
│ LLaMA · Qwen · DeepSeek · GLM · Phi │
└──────────────────────────┬──────────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────────────────┐
│ ⑦ 模型能力应用 │
│ In-Context Learning · Chain-of-Thought │
│ 涌现能力 · Prompt工程 │
└─────────────────────────────────────────────────────────────┘
图例:
──→ 依赖关系(必须前置理解)
─ ─→ 弱关联(可独立学习)
知识点依赖关系详解
纵向依赖(必须按序学习):
第1篇(认知) → 第2篇(技术栈) → 第3篇(Transformer) → 第4篇(训练)
↘
第5篇(规模) → 第7篇(ICL/CoT)
↗
第6篇(选型)
横向关联(可交叉阅读):
| 关联组合 | 联动价值 |
|---|---|
| 第3篇(架构)+ 第5篇(演进) | 理解"为什么Transformer能胜出" |
| 第4篇(训练)+ 第7篇(ICL) | 理解"微调 vs In-Context Learning的边界" |
| 第5篇(规模)+ 第6篇(选型) | 理解"为什么选择大模型而非小模型" |
| 第2篇(技术栈)+ 第6篇(选型) | 理解"Tokenization如何影响中文能力" |
三、核心知识点速查表
3.1 必背公式
| 公式 | 来源 | 含义 |
|---|---|---|
| Attention(Q,K,V) = softmax(QK^T/√d_k)V | 第3篇 | Transformer的核心计算,Self-Attention的精确定义 |
| L(N) = (N_c/N)^α_N + E | 第5篇 | Kaplan规模定律:损失随参数量幂律下降 |
| L(D) = (D_c/D)^α_D + E | 第5篇 | Chinchilla定律:损失随数据量幂律下降 |
| D/N ≈ 20 | 第5篇 | Chinchilla最优训练比例:每个参数配20个Token |
| 显存 ≈ 参数量 × 2(FP16) / 1(INT8) / 0.5(INT4) 字节 | 第6篇 | 部署显存的快速估算公式 |
3.2 关键数据点
| 数据点 | 值 | 来源 | 为什么重要 |
|---|---|---|---|
| GPT-3参数 | 175B | 第1篇 | 开启"大模型时代"的标志性规模 |
| GPT-3训练数据 | 45TB / 300B tokens | 第1篇 | 人类知识总量的一个近似 |
| LLaMA-3训练数据 | 15T tokens | 第5篇 | 最大规模公开训练数据集 |
| Attention复杂度 | O(n²) | 第3篇 | 长上下文的根本瓶颈 |
| 涌现阈值(推理) | ~50B参数 | 第7篇 | 复杂推理能力出现的分水岭 |
| 涌现阈值(ICL) | ~10B参数 | 第7篇 | In-Context Learning开始有效 |
| 中文最好模型 | Qwen-2.5-72B | 第6篇 | C-Eval: 86.5分 |
| 性价比之王 | DeepSeek-V3 | 第6篇 | MoE:671B总参数,37B激活 |
3.3 技术架构速查
| 架构组件 | 标准选择 | 替代方案 | 出现篇目 |
|---|---|---|---|
| 归一化 | RMSNorm | LayerNorm, BatchNorm | 第3篇 |
| 激活函数 | SwiGLU (LLaMA) | GELU, ReLU | 第3篇 |
| 位置编码 | RoPE (LLaMA) | 正弦位置编码, ALiBi | 第3篇 |
| 注意力机制 | Multi-Head Attention | GQA, MQA | 第3篇 |
| Token化 | BPE (GPT) / SentencePiece (LLaMA) | WordPiece (BERT) | 第2篇 |
| 训练范式 | 预训练 → SFT → 对齐 | 直接SFT, 持续预训练 | 第4篇 |
| 对齐方法 | DPO | RLHF (PPO), KTO | 第4篇 |
四、读者学习路径:你现在处于哪个阶段?
读者画像与路径匹配
读者A:算法工程师/研究员
目标:深入理解原理,能复现关键实验
现状:有一定ML/DL基础,需要补齐LLM专项知识
↓
路径A:深度优先路径
读者B:应用开发者
目标:能用模型做产品,会调用API和微调
现状:有编程基础,需要快速上手
↓
路径B:广度优先路径
读者C:AI产品经理/技术管理者
目标:能评估技术方案,做合理决策
现状:不需要写代码,但要理解技术边界
↓
路径C:决策者路径
路径A:算法工程师深度路径
阶段一(已完成):基础认知篇
✓ 第1-8篇全部读完
自检:能否手写Self-Attention的前向传播?
阶段二(下阶段):技术原理篇(第9-20篇)
重点文章:
★ 第9篇 GPT架构演进:从Transformer到GPT-4
★ 第10篇 LLaMA架构解析:RMSNorm、SwiGLU、RoPE
★ 第11篇 MoE:专家路由、DeepSeek-V3
★ 第12篇 长上下文技术:位置插值、FlashAttention
★ 第13篇 RLHF与DPO:对齐技术深度对比
★ 第14篇 KV Cache与推理优化
自检:能否解释GPT和LLaMA架构的核心差异?
阶段三:应用实战篇(第21-32篇)
重点文章:
★ 第23篇 RAG完整指南
★ 第24篇 Fine-tuning实战
★ 第26篇 LangGraph工作流
阶段四:工程实践篇(第33-44篇)
重点文章:
★ 第33篇 量化完全指南
★ 第35篇 vLLM深度解析
★ 第36篇 TensorRT-LLM实战
阶段五:前沿技术篇(第45-62篇)
全部推荐
推荐额外学习:
- 论文阅读:Attention Is All You Need、GPT-3、LLaMA
- 动手实践:训练一个小型GPT(Andrej Karpathy的nanoGPT)
- 框架掌握:Hugging Face Transformers、vLLM
路径B:应用开发者广度路径
阶段一(已完成):基础认知篇
必读:第1-4篇、第6-7篇
选读:第5篇(规模定律细节可跳过)
自检:能否区分ICL和微调的使用场景?
阶段二(下阶段):技术原理篇
必读:
★ 第12篇 长上下文技术 ← 直接影响Prompt设计
★ 第13篇 RLHF与DPO ← 理解模型行为
其他选读
阶段三:应用实战篇(核心阶段!)
★ 第21篇 Prompt Engineering
★ 第22篇 Function Calling与Tool Use
★ 第23篇 RAG完整指南
★ 第24篇 Fine-tuning实战
★ 第25篇 LangChain入门
★ 第26篇 LangGraph工作流
★ 第27篇 Multi-Agent系统
★ 第29篇 LLM安全攻防
阶段四:工程实践篇
必读:
★ 第37篇 大模型服务化架构
★ 第39篇 本地部署入门
★ 第43篇 开源LLM生态工具链
阶段五:前沿技术篇
选读感兴趣的方向
推荐额外学习:
- 动手项目:用LangChain/RAG构建一个文档问答系统
- 工具掌握:OpenAI API、Ollama、LangChain
- 参考资源:LangChain官方文档、OpenAI Cookbook
路径C:决策者路径
阶段一(已完成):基础认知篇
重点理解:
- 模型能做/不能做什么(第1篇)
- 训练流程与成本(第4篇)
- 开源 vs 闭源选型(第6篇)
- Prompt的重要性(第7篇)
阶段二(下阶段):技术原理篇
必读:第13篇(RLHF与DPO)、第18篇(多模态)
其他可快速浏览
阶段三:应用实战篇
必读:
★ 第21篇 Prompt Engineering
★ 第23篇 RAG
★ 第29篇 LLM安全攻防
★ 第31篇 合成数据与数据治理
阶段四:工程实践篇
必读:
★ 第37篇 服务化架构与成本控制
★ 第38篇 LLMOps监控运维
阶段五:前沿技术篇
必读:
★ 第59篇 2026技术趋势展望
核心竞争力:
不需要写代码,但需要:
1. 准确判断"这个需求用LLM能做到什么程度"
2. 评估技术方案的成本与时间
3. 理解技术风险(幻觉、安全、合规)
4. 对团队提出正确的技术要求
五、第一阶段学习自检清单
完成基础认知篇后,请逐一检查以下问题。如果大部分能回答,说明基础已经夯实;如果某题有困难,回到对应文章重读相关章节。
概念理解题
| # | 问题 | 对应篇目 | 参考答案页 |
|---|---|---|---|
| 1 | LLM和传统NLP模型(如LSTM)的本质区别是什么? | 第1篇 | §1.2 |
| 2 | Tokenization为什么对中文不友好?BPE的解决思路是什么? | 第2篇 | §2.2 |
| 3 | Self-Attention中除以√d_k的作用是什么? | 第3篇 | §3.2 |
| 4 | 预训练、SFT、RLHF三阶段分别解决什么问题? | 第4篇 | §2-4 |
| 5 | Kaplan定律和Chinchilla定律的核心差异是什么? | 第5篇 | §2.1-2.2 |
| 6 | MoE架构的"稀疏激活"是什么?为什么能降低成本? | 第6篇 | §2.3 |
| 7 | ICL为什么不需要梯度更新却能让模型"学习"? | 第7篇 | §2.3 |
实践应用题
| # | 问题 | 对应篇目 |
|---|---|---|
| 8 | 如果一个7B模型的中文能力很差,你会尝试哪些优化手段? | 第6篇 §3.3 |
| 9 | 需要部署一个70B模型做推理,单张A100(80GB)够吗?怎么办? | 第6篇 §4.1 |
| 10 | 某个推理任务,Zero-shot准确率50%,你会如何一步步提升? | 第7篇 §5.2 |
| 11 | 什么时候选微调而不是ICL?反之呢? | 第7篇 §6 |
架构理解题
| # | 问题 | 对应篇目 |
|---|---|---|
| 12 | Encoder-Decoder和Decoder-only架构的适用场景有何不同? | 第3篇 §4 |
| 13 | 为什么GPT系列坚持Decoder-only而BERT用Encoder-only? | 第5篇 §4.1 |
| 14 | RoPE相比正弦位置编码有什么优势? | 第3篇 §2.3 |
六、常见误区与纠正
经过7篇文章的学习和评论区交流,整理了以下初学者最常踩的坑:
| 误区 | 正确理解 | 出处 |
|---|---|---|
| ❌ "大模型就是ChatGPT" | 大模型是一个技术类别,ChatGPT是其中一个产品 | 第1篇 |
| ❌ "Pretrain就是让模型看更多书" | 预训练是Next Token Prediction的自监督学习,本质是压缩知识 | 第4篇 |
| ❌ "参数越多一定越好" | Chinchilla定律证明:数据量和参数量需要匹配;GPT-3(D/N≈1.7)训练不足 | 第5篇 |
| ❌ "微调就是改一改参数" | 微调有三种范式(全参/LoRA/Prompt Tuning),影响截然不同 | 第4篇 |
| ❌ "所有任务都需要微调" | ICL在很多场景下已有优秀表现;用Zero-shot CoT先试水 | 第7篇 |
| ❌ "开源模型一定比闭源弱" | DeepSeek-V3、Qwen-2.5在某些领域已超越GPT-4 | 第6篇 |
| ❌ "涌现能力是模型突然变聪明" | 涌现的"突然性"部分是评估指标造成的假象 | 第7篇 |
| ❌ "Self-Attention就是算相关性" | 更精确地说,是Query和Key的向量相似度,除以√d_k防止梯度消失 | 第3篇 |
七、第二阶段预告:技术原理篇
从第9篇开始,我们将进入第二阶段:技术原理篇(共12篇,约1.5个月)。如果说基础篇是"知其然",原理篇就是"知其所以然"。
第二阶段文章列表
第9篇 → GPT系列架构演进:从Transformer到GPT-4
第10篇 → LLaMA架构解析:开源大模型的技术典范
第11篇 → 混合专家模型(MoE):用更少参数实现更强性能
第12篇 → 长上下文技术全景:突破窗口限制的方法论
第13篇 → RLHF与DPO:大模型对齐技术的两条路径
第14篇 → KV Cache与推理优化:让模型生成更快
第15篇 → 混合精度与分布式训练:训练大模型的工程奥秘
第16篇 → 归一化与激活函数:LLM中的关键设计选择
第17篇 → 模型幻觉与评估:如何衡量和改进LLM质量
第18篇 → 多模态大模型:当语言模型学会"看"和"听"
第19篇 → 状态空间模型与Mamba:Transformer的挑战者
第20篇 → 阶段总结:技术原理篇核心知识回顾
第二阶段重点攻克的问题
基础篇遗留的"为什么" → 原理篇给出答案
Q: 为什么Transformer要用LayerNorm而不是BatchNorm?
A: → 第16篇
Q: 为什么GPT用Decoder-only而不用Encoder-Decoder?
A: → 第9篇
Q: DeepSeek-V3的671B参数为什么推理成本比70B还低?
A: → 第11篇
Q: 如何让模型理解百万Token的长文档?
A: → 第12篇
Q: 为什么DPO比RLHF更简单但效果不差?
A: → 第13篇
Q: 两张4090能训练7B模型吗?需要什么技巧?
A: → 第15篇
原理篇学习难度分级
🟢 入门级(无需深厚数学基础):
第9篇(GPT演进)、第18篇(多模态入门)
🟡 进阶级(需要基础ML知识):
第11篇(MoE)、第12篇(长上下文)、第14篇(KV Cache)
第17篇(评估)、第19篇(Mamba)
🔴 深度级(需要较好的数学和系统基础):
第10篇(LLaMA架构细节)、第13篇(RLHF/DPO数学)
第15篇(分布式训练)、第16篇(归一化/激活函数)
八、推荐学习资源汇总
必读论文(按学习阶段)
| 阶段 | 论文 | 为什么读 |
|---|---|---|
| 基础篇 | Attention Is All You Need (Vaswani et al., 2017) | Transformer原点 |
| 基础篇 | Language Models are Few-Shot Learners (Brown et al., 2020) | GPT-3与ICL |
| 基础篇 | Training Compute-Optimal Large Language Models (Hoffmann et al., 2022) | Chinchilla定律 |
| 原理篇 | LLaMA: Open and Efficient Foundation Language Models (Touvron et al., 2023) | LLaMA架构 |
| 原理篇 | Direct Preference Optimization (Rafailov et al., 2023) | DPO算法 |
| 原理篇 | FlashAttention (Dao et al., 2022) | 高效注意力机制 |
动手项目推荐
| 项目 | 难度 | 时间 | 学到什么 |
|---|---|---|---|
| nanoGPT | ⭐⭐ | 1天 | 从零训练小型GPT |
| llama.c | ⭐ | 半天 | 纯C语言推理LLaMA |
| LangChain RAG教程 | ⭐⭐ | 1-2天 | 构建RAG应用 |
| vLLM部署 | ⭐⭐⭐ | 半天 | 高性能推理服务 |
| Unsloth微调 | ⭐⭐ | 1天 | QLoRA微调大模型 |
推荐关注的信息源
论文追踪:
arXiv cs.CL / cs.AI 每日更新
Hugging Face Daily Papers
中文技术社区:
知乎:苏剑林、唐解元、李rumor
公众号:机器之心、量子位、新智元
开源动态:
GitHub Trending (daily)
Hugging Face Models Trending
Reddit r/LocalLLaMA(本地部署讨论)
九、总结
基础篇核心收获
┌─────────────────────────────────────────────────────────────┐
│ │
│ ① 知道LLM是什么、能做什么、不能做什么 │
│ ② 理解从Token到生成输出的完整技术栈 │
│ ③ 掌握Self-Attention的核心计算和直观理解 │
│ ④ 理解预训练→SFT→RLHF/DPO的训练范式 │
│ ⑤ 能用Scaling Law解释"为什么模型越来越大" │
│ ⑥ 能根据任务选择合适的开源模型 │
│ ⑦ 会编写高效的ICL+CoT Prompt │
│ │
│ → 你已经从一个"只会用ChatGPT"的用户, │
│ 进阶为一个"理解大模型原理"的技术人。 │
│ │
└─────────────────────────────────────────────────────────────┘
从"会用"到"懂"的关键转折
基础篇的全部努力,指向一个核心目标:让你不再"迷信"大模型,而是"理解"大模型。
- 当别人说"GPT真神奇"时,你知道它本质是Next Token Prediction
- 当同事问"为什么模型回答错了"时,你能追溯到训练数据和Prompt
- 当老板说"我们也训练一个大模型"时,你能估算成本和可行性
- 当要选择一个基座模型时,你能给出数据驱动的建议
这就是第一阶段的价值。
写在最后
基础认知篇是系列博客的起点,也是最关键的部分------它为后续的所有技术深度讨论建立了共通的语境和概念框架。
如果你已经完整读完前8篇,并且能回答自检清单中的大部分问题------恭喜你,你已经具备了继续深入学习大模型技术的坚实基础。
从下周开始,我们将进入更硬核的技术原理篇------一起解开大模型内部的秘密。
《LLM技术全景》基础认知篇 完 · 下周技术原理篇见