AI 工程知识图谱:从 Transformer 到 Agentic AI 的全景地图

一张图看懂 AI Engineering 全貌------7 大模块、50+ 核心概念、5 层技术栈,帮你建立系统化的 AI 工程认知框架。


前言:为什么需要一张 AI 工程知识图谱

过去两年,AI 领域的论文数量呈指数增长,新框架每周冒出来,新概念层出不穷。很多开发者的感受是:

  • 学不完:今天学 RAG,明天出 GraphRAG,后天又来 Agentic RAG
  • 连不上:Transformer、Prompt Engineering、Agent、MCP 之间是什么关系?
  • 用不对:知道概念但不知道什么时候用、怎么选型

知识图谱 解决的就是"连不上"的问题------不是教你每个概念的细节,而是帮你建立概念之间的连接关系,形成一张可导航的地图。

本文将 AI 工程拆解为 7 大模块,每个模块给出核心概念、关键论文、选型决策和模块间关联,最终形成一张完整的知识图谱。


一、知识图谱总览

复制代码
AI Engineering 知识图谱
│
├── 1. 基石与里程碑 ← 一切的起点
│   └── Transformer → GPT → InstructGPT → Scaling Laws
│
├── 2. 大模型架构与训练 ← 怎么"炼"出来的
│   └── 架构 / Tokenization / 三阶段训练 / 微调 / 推理优化
│
├── 3. Prompt 工程 ← 怎么"用"好模型
│   └── Zero/Few-Shot / CoT / ToT / ReAct / 结构化输出 / 注入防御
│
├── 4. Agent 架构 ← 从"回答"到"行动"
│   └── ReAct / Plan-Execute / Reflexion / Multi-Agent / 记忆 / 规划
│
├── 5. 上下文工程与 RAG ← 突破记忆限制
│   └── 上下文窗口 / 记忆系统 / RAG 流程 / 高级 RAG / GraphRAG
│
├── 6. Skills、MCP 与工具链 ← 让 AI 真正"干活"
│   └── Skill 系统 / MCP 协议 / AI IDE / 开发工具链
│
└── 7. 评估与安全 ← 怎么知道"好不好"
    └── 评估四维度 / Agent 评估 / 安全防御 / 成本计算

模块间依赖关系

复制代码
1. 基石与里程碑
    ↓ (Transformer 是一切的基础)
2. 大模型架构与训练
    ↓ (训练出模型后才能用)
3. Prompt 工程 ← → 5. 上下文工程与 RAG
    ↓ (Prompt 驱动行动)      (RAG 扩展知识)
4. Agent 架构
    ↓ (Agent 需要工具)
6. Skills、MCP 与工具链
    ↓ (需要评估和安全)
7. 评估与安全

二、模块 1:基石与里程碑

核心时间线

年份 里程碑 一句话意义
2017 Transformer 一切的起点,用 Self-Attention 替代 RNN
2018 BERT / GPT-1 预训练范式确立
2020 GPT-3 涌现能力出现,ICL 不需微调
2020 Scaling Laws 性能与参数/数据/算力的幂律关系
2022 InstructGPT / ChatGPT RLHF 对齐,AI 走向大众
2022 CoT / ReAct / RAG 推理、行动、检索三大方向同时开启
2023-24 GPT-4 / Claude 3 / Llama 2 多模态 + 开源爆发
2025 推理模型 (o3 / R1) "慢思考"成为新范式
2026 Agentic RAG RAG 从检索工具升级为 Agent 基础设施

必读论文 Top 5(入门优先级排序)

  1. Attention Is All You Need (2017) --- Transformer,所有大模型的祖先
  2. GPT-3 (2020) --- 涌现能力,In-Context Learning
  3. InstructGPT (2022) --- RLHF 对齐三阶段
  4. Chain-of-Thought (2022) --- 让模型一步步思考
  5. ReAct (2022) --- Agent 架构的理论基础

关键术语速查

术语 一句话
LLM 大语言模型,参数量 > 1B
RLHF 用人类偏好训练奖励模型再优化
DPO 直接优化偏好,简化版 RLHF
LoRA 低秩微调,只训练 0.1% 参数
MoE 稀疏激活的专家混合模型
ICL 上下文学习,给几个例子就能做新任务
Token 模型处理的最小文本单位,约 0.75 个英文单词

三、模块 2:大模型架构与训练

Transformer 核心结构

复制代码
输入文本 → Tokenizer → Embedding + 位置编码
    → [N × Transformer Block]
        → Multi-Head Self-Attention  ← 每个词"看"所有其他词
        → Add & LayerNorm
        → Feed-Forward Network       ← 大模型的"知识"主要存在这里
        → Add & LayerNorm
    → 输出层 → 预测下一个 Token

Self-Attention 直觉类比

  • Q(Query)= "我在找什么"
  • K(Key)= "我是什么"(被搜索的标签)
  • V(Value)= "我的内容"(实际信息)

就像在图书馆:Q 是你的问题,K 是书名,V 是书的内容。根据问题与书名的匹配度,决定花多少注意力在每本书上。

训练三阶段

阶段 目标 数据量 成本
预训练 学习语言通用知识 数万亿 Token 数千万-上亿美元
SFT 学会对话和遵循指令 数万-数十万条 低几个数量级
对齐 (RLHF/DPO) 有用、诚实、无害 人类偏好数据 中等

核心公式:数据质量 >> 数据数量。宁可 1 万条高质量,不要 100 万条低质量。

高效微调方法选型

方法 参数量 显存 适用
LoRA 0.1-1% 最常用,接近全量微调效果
QLoRA 0.1% + 4bit 极低 消费级 GPU
Full Fine-tuning 100% 极高 有大量算力

推理优化

技术 作用 效果
KV Cache 缓存已算的 Key/Value 避免重复计算
量化 (INT4/INT8) 降低精度 显存减半,精度小幅下降
vLLM PagedAttention KV Cache 去碎片 GPU 利用率↑

模型选型决策树

复制代码
你的场景:
├── 通用对话/创作 → GPT-4o / Claude Sonnet
├── 复杂推理/数学 → o3 / DeepSeek-R1
├── 代码生成 → Claude Opus 4
├── 超长文档 → Gemini 2.0 (1M 窗口)
├── 本地部署/隐私 → Llama 3.1 / Qwen 2.5
├── 中文场景 → Qwen 2.5 / DeepSeek
└── 成本敏感 → DeepSeek-V3

四、模块 3:Prompt 工程

Prompt 的本质

复制代码
完整的 Prompt = 角色 + 上下文 + 指令 + 输入 + 输出格式 + 约束

同一个模型,Prompt 不同,输出质量可以差 10 倍

核心模式

模式 核心思想 适用场景
Zero-Shot 直接给指令 简单明确的任务
Few-Shot 给 3-5 个示例 格式控制、分类
CoT "让我们一步步思考" 推理、数学、多步问题
ToT 探索多条推理路径 开放性规划
ReAct 推理 + 行动交替 需要调用工具的任务
结构化输出 指定 JSON/表格格式 需要程序化消费结果

CoT 的变体进化

复制代码
Zero-Shot CoT → "Let's think step by step"
    ↓
Few-Shot CoT → 给带推理过程的示例
    ↓
Self-Consistency → 多次采样取一致性最高的答案
    ↓
Tree of Thoughts → 树状搜索多条推理路径

System Prompt 架构设计

一个优秀的 System Prompt 应该是分层的:

复制代码
System Prompt = 身份层 (我是谁)
             + 灵魂层 (我怎么思考)
             + 知识层 (我知道什么)
             + 记忆层 (我经历过什么)
             + 工具层 (我能做什么)

Prompt 注入防御

攻击类型 原理 防御
直接注入 "忽略上面的指令" 指令-数据分离
间接注入 通过外部数据注入 输入验证
越狱 角色扮演绕过限制 多层防御

2026 前沿:Prompt Bloat 问题

MCP 工具数量爆炸 → 工具描述塞满 context → LLM 工具选择准确率下降。

解法 :RAG-as-Routing,用语义检索预筛选工具(top-k),只把相关工具注入 Prompt。实测 prompt token 降低 60%+


五、模块 4:Agent 架构

Agent = LLM + 记忆 + 工具 + 规划

维度 ChatBot Agent
交互 一问一答 自主规划、多步执行
工具 调用外部工具/API
记忆 当前对话 短期 + 长期记忆
决策 被动响应 主动推理和规划

Agent 核心循环

复制代码
Perceive (感知) → Think (思考) → Act (行动) → Observe (观察) → 循环

五大设计模式

模式 1:ReAct(最广泛使用)

复制代码
Thought → Action → Observation → Thought → Action → ...

简单直观,但串行执行,没有全局规划。

模式 2:Plan-and-Execute

复制代码
制定完整计划 → 逐步执行 → 根据中间结果 Replan

有全局视角,适合复杂任务。

模式 3:Reflexion

复制代码
执行 → 自我评估 → 存储反思 → 下次避免同类错误

持续自我改进。

模式 4:Multi-Agent

复制代码
Orchestrator
  ├── Researcher → 信息收集
  ├── Writer → 内容生成
  └── Reviewer → 质量检查

分工协作,适合复杂工作流。

模式 5:Tool-Use Agent

LLM 决定何时调用什么工具。模型不是"执行"工具,而是生成工具调用的 JSON 描述,由外部系统执行。

记忆系统设计

类型 对标人类记忆 实现方式
工作记忆 工作记忆 当前上下文窗口
短期记忆 短时记忆 对话历史(滑动窗口)
长期记忆 长时记忆 向量数据库 / 文件系统
程序性记忆 技能记忆 Skills / Prompt 模板

Agent 框架选型

需求 推荐框架
快速原型 Coze / Dify(零代码)
内容/研究类 CrewAI(角色扮演)
复杂工作流/生产 LangGraph(状态图)
多 Agent 辩论 AutoGen
最大灵活度 直接调 API + 自己写循环

2026 关键洞察

Agent 系统工程三角:编排 + 记忆治理 + 工具可靠性,决定 Agent 能否真正落地。

维度 关键数据
工具可靠性 工具调用错误占 Agent 失败原因 67%
记忆治理 结构化记忆在 SWE-bench 提升 23.7%
编排架构 500+ 真实项目:状态同步失败 38%

六、模块 5:上下文工程与 RAG

核心矛盾:"看到" ≠ "记住"

Lost in the Middle 问题:模型对上下文开头和结尾 更敏感,中间部分容易被忽略。即使窗口有 200K,实际有效利用的可能只有 50-70%。

上下文工程原则

复制代码
上下文 = System Prompt (固定层)
       + User Profile (半固定层)
       + Retrieved Knowledge (动态检索层)
       + Conversation History (对话层)
       + Current Query (当前输入层)

5 条黄金法则

  1. 最相关的信息放在开头和结尾
  2. System Prompt 越精简越好
  3. 动态检索胜于静态塞入
  4. 摘要压缩胜于直接截断
  5. 结构化(Markdown/JSON)胜于纯文本

RAG 完整流程

复制代码
离线:文档 → 解析 → 清洗 → 分块 → Embedding → 向量数据库
在线:查询 → Query Embedding → 向量检索 → 重排序 → 拼 Prompt → 生成

分块策略选型

策略 适用
递归分割 最常用,先按大边界切,太长再按段落切
语义分割 结构化文档
固定长度 + 重叠 简单通用

最佳实践:块大小 256-1024 Token,重叠 10-20%。

向量数据库选型

数据库 适用场景
Chroma 原型 / 小项目
FAISS 大规模 / 自部署
Pinecone 生产环境(全托管)
pgvector 已有 PG 基础设施

高级 RAG 技术矩阵

技术 核心思想 解决什么问题
HyDE 先生成假设回答再检索 短查询与长文档距离远
Self-RAG 模型自判是否需要检索 避免不必要检索
CRAG 检索后评估相关性 不相关文档污染上下文
GraphRAG 知识图谱 + RAG 捕捉实体间关系
RAPTOR 递归摘要树 同时检索细节和全局

2026 前沿:Agentic RAG

RAG 正在从"检索工具"升级为"Agent 基础设施":

主线 核心机制 适用
RAG-as-Routing 语义检索预筛选工具 工具爆炸场景
RAG-as-Memory 图结构持久化知识 企业复杂文档

架构选型

  • 简单问答 → Agentic RAG(成本低)
  • 跨实体全局推理 → GraphRAG(不可替代)

七、模块 6:Skills、MCP 与工具链

MCP = AI 的 USB 接口

MCP (Model Context Protocol) = Anthropic 提出的开放协议,让 AI 模型标准化地连接外部工具和数据源。

复制代码
MCP Client (AI应用)  ←─MCP协议─→  MCP Server (工具提供方)
  Claude/Cursor/CodeBuddy         GitHub/Slack/数据库/文件系统

Skill vs Prompt vs Tool

概念 粒度 包含
Tool 原子操作 一个 API/函数
Prompt 一段指令 角色 + 任务 + 格式
Skill 完整能力 Prompt + Tool + SOP + 知识

AI IDE 选型

工具 核心能力 特点
Cursor 代码生成/编辑/对话 Composer 多文件编辑
GitHub Copilot 补全/Chat 最大用户基数
CodeBuddy 代码 + MCP + Agent 集成 MCP 和 Agent
Cline 自主编码 Agent 开源,可控性强

2026 关键洞察:RAG-MCP

MCP 工具超过 30 个后,必须启用 RAG-based Skill Router,否则工具选择准确率崩溃:

Skill 数量 建议策略
≤15 全量注入,无需 Router
16-30 建立语义索引,实验 Router
>30 必须 RAG-based Router

八、模块 7:评估与安全

评估四维度

维度 关键指标 可接受阈值
质量 准确率 / F1 / 人工评分 因场景而异
延迟 首 Token 时间 / 总生成时间 TTFT < 1s
成本 每请求 Token 成本 与业务价值匹配
安全 有害输出率 / 注入成功率 < 0.1%

成本计算公式

复制代码
月成本 = 日均请求数 × 平均 Token 数 × Token 单价 × 30

例:10000 请求/天 × 2000 Token × $0.003/1K × 30 = $1,800/月

Agent 评估维度

维度 衡量方式
任务完成率 自动化测试集
步骤效率 日志统计
工具调用准确率 日志审计
鲁棒性 边界测试

安全红线

攻击 防御
Prompt 注入 指令-数据分离 + 输入验证
工具中毒 能力认证校验
跨服务器注入 沙箱隔离 + 来源隔离
数据泄露 输出过滤 + 脱敏

九、跨模块关联:知识图谱的关键边

知识图谱的价值不在于节点(单个概念),而在于(概念间的关系)。

关键关联 1:Transformer → Prompt → Agent

复制代码
Transformer 的 Self-Attention 机制
    → 使得模型能理解长距离依赖
    → 使得 CoT (链式思考) 成为可能
    → 使得 ReAct (推理+行动) 成为可能
    → Agent 架构的基础

关键关联 2:Embedding → RAG → Agent

复制代码
Embedding 将文本映射到向量空间
    → 使得语义检索成为可能
    → RAG 用 Embedding 检索相关知识
    → Agent 用 RAG 扩展知识边界
    → Agentic RAG 让 Agent 自主决定检索策略

关键关联 3:MCP → Skill → Agent

复制代码
MCP 统一工具接口
    → Skill 封装为可复用能力单元
    → Agent 通过 Skill 调用工具
    → RAG-MCP 解决工具选择问题

关键关联 4:记忆 → 上下文 → 压缩

复制代码
长期记忆(文件/向量库)
    → 上下文窗口有限(200K)
    → 需要压缩(摘要/截断/检索)
    → 迭代式摘要 + Handoff 框架
    → 记忆的 CRUD + 遗忘机制

十、学习路线图

入门路线(2-3 周)

  1. 3Blue1Brown 神经网络视频 → 建立直觉
  2. Jay Alammar "The Illustrated Transformer" → 理解 Transformer
  3. 精读模块 1-3(基石 + 架构 + Prompt)→ 打基础
  4. 动手写 Prompt,跑通 CoT / Few-Shot

进阶路线(4-6 周)

  1. 搭建一个 ReAct Agent(LangChain/LangGraph)
  2. 实现一个 RAG 系统(Chroma + OpenAI Embedding)
  3. 精读模块 4-6(Agent + RAG + MCP)
  4. 读 Chip Huyen《AI Engineering》

深入路线(持续)

  1. 精读 ReAct / RAG / CoT 原始论文
  2. 研究 Hermes Agent 源码(上下文压缩 + 记忆系统设计)
  3. 关注 2026 前沿:Agentic RAG / GraphRAG / 推理模型
  4. 关注 arXiv cs.CL 每月热门论文

十一、2026 趋势总结

趋势 核心 对开发者的意义
推理模型 "慢思考"成为新范式 复杂推理场景优先选 R1/o3
Agentic RAG RAG 升级为 Agent 基础设施 RAG 不只是检索,是路由+记忆
GraphRAG 图结构捕捉实体关系 跨实体全局推理不可替代
Prompt Bloat 工具爆炸导致注意力稀释 超 30 工具必须上 Router
记忆架构 从向量检索到图结构+层次化解耦 单纯向量相似度已被宣告过时
Agent 安全 MCP 协议级漏洞被发现 能力认证 + 沙箱隔离是 P0

十二、推荐资源

资源 类型 核心
Attention Is All You Need 论文 Transformer 原文
AI Engineering (Chip Huyen) 书籍 AI 工程全景
《动手学深度学习》(d2l.ai) 书籍 代码实操入门
promptingguide.ai 教程 Prompt 工程指南
LangChain 官方文档 文档 Agent/RAG 实操
吴恩达 AI Agent 课程 视频 Agent 设计模式
MCP 官方文档 文档 MCP 协议规范
arXiv cs.CL 论文 前沿跟踪

结语

AI 工程不是一堆孤立概念的堆砌,而是一棵从 Transformer 根基长出的知识树:

  • Transformer 是根------Self-Attention 机制让一切成为可能
  • Prompt 是干------用自然语言操控模型
  • Agent 是枝------从被动回答到主动行动
  • RAG 是叶------突破知识边界
  • MCP 是果------让 AI 真正连接世界

记住这张图,你就不会在 AI 工程的知识海洋中迷路。


作者:路易乔布斯 | 知识域:AI Engineering | 2026-04-27

相关推荐
sheji1052 小时前
扫地机器人行业深度分析报告
大数据·人工智能·机器人·智能硬件
AI木马人2 小时前
11.【AI系统微服务架构实战】如何从单体系统升级到微服务?(避免系统崩溃的完整方案)
人工智能·微服务·架构
AI探知-阿薇2 小时前
OpenAI GPT-5.5 API Key 配置详解:环境变量设置与 AI 编程 Agent 搭建
人工智能·gpt
AI医影跨模态组学2 小时前
Ann Oncol(IF=65.4)广东省人民医院放射科刘再毅&阿里巴巴达摩院等团队:基于非增强CT与深度学习的结直肠癌检测
人工智能·深度学习·论文·医学影像
学习论之费曼学习法2 小时前
AI 入门 30 天挑战 - Day 19 费曼学习法版 - GAN 生成对抗网络
人工智能·学习·生成对抗网络
数智工坊2 小时前
【Anchor DETR论文阅读】:基于锚点查询设计的Transformer检测器,50epoch收敛且速度精度双升
论文阅读·深度学习·transformer
guslegend2 小时前
第17节:模型忽略关键实体怎么办?注意力权重分配机制引导生成拒绝重点
人工智能·大模型·rag
Deepoch2 小时前
Deepoc 具身模型开发板赋能智能轮椅自主随行与安全控制技术研究
人工智能·科技·安全·开发板·deepoc·智能轮椅
Magic-Yuan2 小时前
算力的迷雾
人工智能·算法·机器学习