AI 工程知识图谱：从 Transformer 到 Agentic AI 的全景地图

一张图看懂 AI Engineering 全貌------7 大模块、50+ 核心概念、5 层技术栈，帮你建立系统化的 AI 工程认知框架。

前言：为什么需要一张 AI 工程知识图谱

过去两年，AI 领域的论文数量呈指数增长，新框架每周冒出来，新概念层出不穷。很多开发者的感受是：

学不完：今天学 RAG，明天出 GraphRAG，后天又来 Agentic RAG
连不上：Transformer、Prompt Engineering、Agent、MCP 之间是什么关系？
用不对：知道概念但不知道什么时候用、怎么选型

知识图谱 解决的就是"连不上"的问题------不是教你每个概念的细节，而是帮你建立概念之间的连接关系，形成一张可导航的地图。

本文将 AI 工程拆解为 7 大模块，每个模块给出核心概念、关键论文、选型决策和模块间关联，最终形成一张完整的知识图谱。

一、知识图谱总览

复制代码

AI Engineering 知识图谱
│
├── 1. 基石与里程碑 ← 一切的起点
│   └── Transformer → GPT → InstructGPT → Scaling Laws
│
├── 2. 大模型架构与训练 ← 怎么"炼"出来的
│   └── 架构 / Tokenization / 三阶段训练 / 微调 / 推理优化
│
├── 3. Prompt 工程 ← 怎么"用"好模型
│   └── Zero/Few-Shot / CoT / ToT / ReAct / 结构化输出 / 注入防御
│
├── 4. Agent 架构 ← 从"回答"到"行动"
│   └── ReAct / Plan-Execute / Reflexion / Multi-Agent / 记忆 / 规划
│
├── 5. 上下文工程与 RAG ← 突破记忆限制
│   └── 上下文窗口 / 记忆系统 / RAG 流程 / 高级 RAG / GraphRAG
│
├── 6. Skills、MCP 与工具链 ← 让 AI 真正"干活"
│   └── Skill 系统 / MCP 协议 / AI IDE / 开发工具链
│
└── 7. 评估与安全 ← 怎么知道"好不好"
    └── 评估四维度 / Agent 评估 / 安全防御 / 成本计算

模块间依赖关系：

复制代码

1. 基石与里程碑
    ↓ (Transformer 是一切的基础)
2. 大模型架构与训练
    ↓ (训练出模型后才能用)
3. Prompt 工程 ← → 5. 上下文工程与 RAG
    ↓ (Prompt 驱动行动)      (RAG 扩展知识)
4. Agent 架构
    ↓ (Agent 需要工具)
6. Skills、MCP 与工具链
    ↓ (需要评估和安全)
7. 评估与安全

二、模块 1：基石与里程碑

核心时间线

年份	里程碑	一句话意义
2017	Transformer	一切的起点，用 Self-Attention 替代 RNN
2018	BERT / GPT-1	预训练范式确立
2020	GPT-3	涌现能力出现，ICL 不需微调
2020	Scaling Laws	性能与参数/数据/算力的幂律关系
2022	InstructGPT / ChatGPT	RLHF 对齐，AI 走向大众
2022	CoT / ReAct / RAG	推理、行动、检索三大方向同时开启
2023-24	GPT-4 / Claude 3 / Llama 2	多模态 + 开源爆发
2025	推理模型 (o3 / R1)	"慢思考"成为新范式
2026	Agentic RAG	RAG 从检索工具升级为 Agent 基础设施

必读论文 Top 5（入门优先级排序）

Attention Is All You Need (2017) --- Transformer，所有大模型的祖先
GPT-3 (2020) --- 涌现能力，In-Context Learning
InstructGPT (2022) --- RLHF 对齐三阶段
Chain-of-Thought (2022) --- 让模型一步步思考
ReAct (2022) --- Agent 架构的理论基础

关键术语速查

术语	一句话
LLM	大语言模型，参数量 > 1B
RLHF	用人类偏好训练奖励模型再优化
DPO	直接优化偏好，简化版 RLHF
LoRA	低秩微调，只训练 0.1% 参数
MoE	稀疏激活的专家混合模型
ICL	上下文学习，给几个例子就能做新任务
Token	模型处理的最小文本单位，约 0.75 个英文单词

三、模块 2：大模型架构与训练

Transformer 核心结构

复制代码

输入文本 → Tokenizer → Embedding + 位置编码
    → [N × Transformer Block]
        → Multi-Head Self-Attention  ← 每个词"看"所有其他词
        → Add & LayerNorm
        → Feed-Forward Network       ← 大模型的"知识"主要存在这里
        → Add & LayerNorm
    → 输出层 → 预测下一个 Token

Self-Attention 直觉类比：

Q（Query）= "我在找什么"
K（Key）= "我是什么"（被搜索的标签）
V（Value）= "我的内容"（实际信息）

就像在图书馆：Q 是你的问题，K 是书名，V 是书的内容。根据问题与书名的匹配度，决定花多少注意力在每本书上。

训练三阶段

阶段	目标	数据量	成本
预训练	学习语言通用知识	数万亿 Token	数千万-上亿美元
SFT	学会对话和遵循指令	数万-数十万条	低几个数量级
对齐 (RLHF/DPO)	有用、诚实、无害	人类偏好数据	中等

核心公式：数据质量 >> 数据数量。宁可 1 万条高质量，不要 100 万条低质量。

高效微调方法选型

方法	参数量	显存	适用
LoRA	0.1-1%	低	最常用，接近全量微调效果
QLoRA	0.1% + 4bit	极低	消费级 GPU
Full Fine-tuning	100%	极高	有大量算力

推理优化

技术	作用	效果
KV Cache	缓存已算的 Key/Value	避免重复计算
量化 (INT4/INT8)	降低精度	显存减半，精度小幅下降
vLLM PagedAttention	KV Cache 去碎片	GPU 利用率↑

模型选型决策树

复制代码

你的场景：
├── 通用对话/创作 → GPT-4o / Claude Sonnet
├── 复杂推理/数学 → o3 / DeepSeek-R1
├── 代码生成 → Claude Opus 4
├── 超长文档 → Gemini 2.0 (1M 窗口)
├── 本地部署/隐私 → Llama 3.1 / Qwen 2.5
├── 中文场景 → Qwen 2.5 / DeepSeek
└── 成本敏感 → DeepSeek-V3

四、模块 3：Prompt 工程

Prompt 的本质

复制代码

完整的 Prompt = 角色 + 上下文 + 指令 + 输入 + 输出格式 + 约束

同一个模型，Prompt 不同，输出质量可以差 10 倍。

核心模式

模式	核心思想	适用场景
Zero-Shot	直接给指令	简单明确的任务
Few-Shot	给 3-5 个示例	格式控制、分类
CoT	"让我们一步步思考"	推理、数学、多步问题
ToT	探索多条推理路径	开放性规划
ReAct	推理 + 行动交替	需要调用工具的任务
结构化输出	指定 JSON/表格格式	需要程序化消费结果

CoT 的变体进化

复制代码

Zero-Shot CoT → "Let's think step by step"
    ↓
Few-Shot CoT → 给带推理过程的示例
    ↓
Self-Consistency → 多次采样取一致性最高的答案
    ↓
Tree of Thoughts → 树状搜索多条推理路径

System Prompt 架构设计

一个优秀的 System Prompt 应该是分层的：

复制代码

System Prompt = 身份层 (我是谁)
             + 灵魂层 (我怎么思考)
             + 知识层 (我知道什么)
             + 记忆层 (我经历过什么)
             + 工具层 (我能做什么)

Prompt 注入防御

攻击类型	原理	防御
直接注入	"忽略上面的指令"	指令-数据分离
间接注入	通过外部数据注入	输入验证
越狱	角色扮演绕过限制	多层防御

2026 前沿：Prompt Bloat 问题

MCP 工具数量爆炸 → 工具描述塞满 context → LLM 工具选择准确率下降。

解法：RAG-as-Routing，用语义检索预筛选工具（top-k），只把相关工具注入 Prompt。实测 prompt token 降低 60%+。

五、模块 4：Agent 架构

Agent = LLM + 记忆 + 工具 + 规划

维度	ChatBot	Agent
交互	一问一答	自主规划、多步执行
工具	无	调用外部工具/API
记忆	当前对话	短期 + 长期记忆
决策	被动响应	主动推理和规划

Agent 核心循环

复制代码

Perceive (感知) → Think (思考) → Act (行动) → Observe (观察) → 循环

五大设计模式

模式 1：ReAct（最广泛使用）

复制代码

Thought → Action → Observation → Thought → Action → ...

简单直观，但串行执行，没有全局规划。

模式 2：Plan-and-Execute

复制代码

制定完整计划 → 逐步执行 → 根据中间结果 Replan

有全局视角，适合复杂任务。

模式 3：Reflexion

复制代码

执行 → 自我评估 → 存储反思 → 下次避免同类错误

持续自我改进。

模式 4：Multi-Agent

复制代码

Orchestrator
  ├── Researcher → 信息收集
  ├── Writer → 内容生成
  └── Reviewer → 质量检查

分工协作，适合复杂工作流。

模式 5：Tool-Use Agent

LLM 决定何时调用什么工具。模型不是"执行"工具，而是生成工具调用的 JSON 描述，由外部系统执行。

记忆系统设计

类型	对标人类记忆	实现方式
工作记忆	工作记忆	当前上下文窗口
短期记忆	短时记忆	对话历史（滑动窗口）
长期记忆	长时记忆	向量数据库 / 文件系统
程序性记忆	技能记忆	Skills / Prompt 模板

Agent 框架选型

需求	推荐框架
快速原型	Coze / Dify（零代码）
内容/研究类	CrewAI（角色扮演）
复杂工作流/生产	LangGraph（状态图）
多 Agent 辩论	AutoGen
最大灵活度	直接调 API + 自己写循环

2026 关键洞察

Agent 系统工程三角：编排 + 记忆治理 + 工具可靠性，决定 Agent 能否真正落地。

维度	关键数据
工具可靠性	工具调用错误占 Agent 失败原因 67%
记忆治理	结构化记忆在 SWE-bench 提升 23.7%
编排架构	500+ 真实项目：状态同步失败 38%

六、模块 5：上下文工程与 RAG

核心矛盾："看到" ≠ "记住"

Lost in the Middle 问题：模型对上下文开头和结尾 更敏感，中间部分容易被忽略。即使窗口有 200K，实际有效利用的可能只有 50-70%。

上下文工程原则

复制代码

上下文 = System Prompt (固定层)
       + User Profile (半固定层)
       + Retrieved Knowledge (动态检索层)
       + Conversation History (对话层)
       + Current Query (当前输入层)

5 条黄金法则：

最相关的信息放在开头和结尾
System Prompt 越精简越好
动态检索胜于静态塞入
摘要压缩胜于直接截断
结构化（Markdown/JSON）胜于纯文本

RAG 完整流程

复制代码

离线：文档 → 解析 → 清洗 → 分块 → Embedding → 向量数据库
在线：查询 → Query Embedding → 向量检索 → 重排序 → 拼 Prompt → 生成

分块策略选型

策略	适用
递归分割	最常用，先按大边界切，太长再按段落切
语义分割	结构化文档
固定长度 + 重叠	简单通用

最佳实践：块大小 256-1024 Token，重叠 10-20%。

向量数据库选型

数据库	适用场景
Chroma	原型 / 小项目
FAISS	大规模 / 自部署
Pinecone	生产环境（全托管）
pgvector	已有 PG 基础设施

高级 RAG 技术矩阵

技术	核心思想	解决什么问题
HyDE	先生成假设回答再检索	短查询与长文档距离远
Self-RAG	模型自判是否需要检索	避免不必要检索
CRAG	检索后评估相关性	不相关文档污染上下文
GraphRAG	知识图谱 + RAG	捕捉实体间关系
RAPTOR	递归摘要树	同时检索细节和全局

2026 前沿：Agentic RAG

RAG 正在从"检索工具"升级为"Agent 基础设施"：

主线	核心机制	适用
RAG-as-Routing	语义检索预筛选工具	工具爆炸场景
RAG-as-Memory	图结构持久化知识	企业复杂文档

架构选型：

简单问答 → Agentic RAG（成本低）
跨实体全局推理 → GraphRAG（不可替代）

七、模块 6：Skills、MCP 与工具链

MCP = AI 的 USB 接口

MCP (Model Context Protocol) = Anthropic 提出的开放协议，让 AI 模型标准化地连接外部工具和数据源。

复制代码

MCP Client (AI应用)  ←─MCP协议─→  MCP Server (工具提供方)
  Claude/Cursor/CodeBuddy         GitHub/Slack/数据库/文件系统

Skill vs Prompt vs Tool

概念	粒度	包含
Tool	原子操作	一个 API/函数
Prompt	一段指令	角色 + 任务 + 格式
Skill	完整能力	Prompt + Tool + SOP + 知识

AI IDE 选型

工具	核心能力	特点
Cursor	代码生成/编辑/对话	Composer 多文件编辑
GitHub Copilot	补全/Chat	最大用户基数
CodeBuddy	代码 + MCP + Agent	集成 MCP 和 Agent
Cline	自主编码 Agent	开源，可控性强

2026 关键洞察：RAG-MCP

MCP 工具超过 30 个后，必须启用 RAG-based Skill Router，否则工具选择准确率崩溃：

Skill 数量	建议策略
≤15	全量注入，无需 Router
16-30	建立语义索引，实验 Router
>30	必须 RAG-based Router

八、模块 7：评估与安全

评估四维度

维度	关键指标	可接受阈值
质量	准确率 / F1 / 人工评分	因场景而异
延迟	首 Token 时间 / 总生成时间	TTFT < 1s
成本	每请求 Token 成本	与业务价值匹配
安全	有害输出率 / 注入成功率	< 0.1%

成本计算公式

复制代码

月成本 = 日均请求数 × 平均 Token 数 × Token 单价 × 30

例：10000 请求/天 × 2000 Token × $0.003/1K × 30 = $1,800/月

Agent 评估维度

维度	衡量方式
任务完成率	自动化测试集
步骤效率	日志统计
工具调用准确率	日志审计
鲁棒性	边界测试

安全红线

攻击	防御
Prompt 注入	指令-数据分离 + 输入验证
工具中毒	能力认证校验
跨服务器注入	沙箱隔离 + 来源隔离
数据泄露	输出过滤 + 脱敏

九、跨模块关联：知识图谱的关键边

知识图谱的价值不在于节点（单个概念），而在于边（概念间的关系）。

关键关联 1：Transformer → Prompt → Agent

复制代码

Transformer 的 Self-Attention 机制
    → 使得模型能理解长距离依赖
    → 使得 CoT (链式思考) 成为可能
    → 使得 ReAct (推理+行动) 成为可能
    → Agent 架构的基础

关键关联 2：Embedding → RAG → Agent

复制代码

Embedding 将文本映射到向量空间
    → 使得语义检索成为可能
    → RAG 用 Embedding 检索相关知识
    → Agent 用 RAG 扩展知识边界
    → Agentic RAG 让 Agent 自主决定检索策略

关键关联 3：MCP → Skill → Agent

复制代码

MCP 统一工具接口
    → Skill 封装为可复用能力单元
    → Agent 通过 Skill 调用工具
    → RAG-MCP 解决工具选择问题

关键关联 4：记忆 → 上下文 → 压缩

复制代码

长期记忆（文件/向量库）
    → 上下文窗口有限（200K）
    → 需要压缩（摘要/截断/检索）
    → 迭代式摘要 + Handoff 框架
    → 记忆的 CRUD + 遗忘机制

十、学习路线图

入门路线（2-3 周）

3Blue1Brown 神经网络视频 → 建立直觉
Jay Alammar "The Illustrated Transformer" → 理解 Transformer
精读模块 1-3（基石 + 架构 + Prompt）→ 打基础
动手写 Prompt，跑通 CoT / Few-Shot

进阶路线（4-6 周）

搭建一个 ReAct Agent（LangChain/LangGraph）
实现一个 RAG 系统（Chroma + OpenAI Embedding）
精读模块 4-6（Agent + RAG + MCP）
读 Chip Huyen《AI Engineering》

深入路线（持续）

精读 ReAct / RAG / CoT 原始论文
研究 Hermes Agent 源码（上下文压缩 + 记忆系统设计）
关注 2026 前沿：Agentic RAG / GraphRAG / 推理模型
关注 arXiv cs.CL 每月热门论文

十一、2026 趋势总结

趋势	核心	对开发者的意义
推理模型	"慢思考"成为新范式	复杂推理场景优先选 R1/o3
Agentic RAG	RAG 升级为 Agent 基础设施	RAG 不只是检索，是路由+记忆
GraphRAG	图结构捕捉实体关系	跨实体全局推理不可替代
Prompt Bloat	工具爆炸导致注意力稀释	超 30 工具必须上 Router
记忆架构	从向量检索到图结构+层次化解耦	单纯向量相似度已被宣告过时
Agent 安全	MCP 协议级漏洞被发现	能力认证 + 沙箱隔离是 P0

十二、推荐资源

资源	类型	核心
Attention Is All You Need	论文	Transformer 原文
AI Engineering (Chip Huyen)	书籍	AI 工程全景
《动手学深度学习》(d2l.ai)	书籍	代码实操入门
promptingguide.ai	教程	Prompt 工程指南
LangChain 官方文档	文档	Agent/RAG 实操
吴恩达 AI Agent 课程	视频	Agent 设计模式
MCP 官方文档	文档	MCP 协议规范
arXiv cs.CL	论文	前沿跟踪

结语

AI 工程不是一堆孤立概念的堆砌，而是一棵从 Transformer 根基长出的知识树：

Transformer 是根------Self-Attention 机制让一切成为可能
Prompt 是干------用自然语言操控模型
Agent 是枝------从被动回答到主动行动
RAG 是叶------突破知识边界
MCP 是果------让 AI 真正连接世界

记住这张图，你就不会在 AI 工程的知识海洋中迷路。

作者：路易乔布斯 | 知识域：AI Engineering | 2026-04-27