一、整体认知框架
现代 AI 系统不能只理解为"一个会聊天的模型",更应该理解为一个分层系统:
1. 模型层
Transformer
LLM
Tokenizer
Token
2. 运行时信息层
Context
Context Window
Prompt
System Prompt
User Prompt
3. 外部能力扩展层
Tool
Tool Calling
MCP
RAG
4. 应用执行层
Agent
Agent Skill
二、概念笔记
1. LLM
定义
LLM(Large Language Model,大语言模型)是基于 Transformer 架构训练出来的语言模型。
本质
它的本质可以理解为一个"高级文字接龙系统":
根据已有上下文,预测下一个最可能出现的 Token。
关键特征
本质是概率预测
输出是逐 token 生成的
不具备真正意义上的长期记忆
不直接执行外部操作
需要借助 Context、Prompt、Tool 才能形成完整应用能力
容易混淆的点
很多人会把 LLM 理解为"像人一样思考"。
更准确地说,它底层是在做序列建模与概率生成。
关联
基于 Transformer
处理单位是 Token
工作时依赖 Context
通过 Prompt 接收任务
借助 Tool 扩展外部能力
被 Agent 用作核心推理与生成引擎
2. Transformer
定义
Transformer 是现代大模型的底层神经网络架构。
作用
它擅长处理长文本序列中的依赖关系,是绝大多数现代 LLM 的基础。
学习意义
理解 Transformer 是理解现代 AI 技术栈的起点,但在应用层面更重要的是知道:
LLM 建立在它之上
它支持长序列建模
它推动了现代生成式 AI 的爆发
关联
支撑 LLM
3. Token
定义
Token 是大模型处理文本时使用的最小/基本单位。
注意
Token 不等于:
一个汉字
一个英文单词
一个自然语言词语
它是模型内部使用的切分单位。
1个token对应的是0.75个英文单词/1.5-2个汉字。那么40万token本质上对应的是60-60万个汉字或者30万个英文单词。
重要性
Context Window 的容量通常按 token 计算
API 成本通常按 token 计算
输入输出长度限制也通常按 token 计算
关联
由 Tokenizer 编码和解码
构成 Context 的基本单位
是 LLM 的输入输出粒度
https://platform.openai.com/tokenizer
4. Tokenizer
定义
Tokenizer 是把自然语言文本和模型内部数字表示连接起来的编码/解码模块。
两个核心功能
编码:文本 → Token / token ID
解码:token ID → 文本
本质
因为 LLM 本质上只能处理数字,不能直接处理自然语言,所以必须依赖 Tokenizer。
关联
负责生成 Token
服务于 LLM
5. Context
定义
Context 是模型在当前任务中能"看到"的全部信息总和。
通常包括
- System Prompt
- User Prompt
- 历史对话
- 用户输入
- 当前返回结果/输出
- 工具列表
本质理解
Context 可以看作模型的"临时记忆体"。
模型不是永久记住之前聊过的话,而是平台每次调用时,把相关历史重新打包给模型。
关键意义
- 决定模型当前知道什么
- 决定模型能否保持对话连续性
- 决定工具结果能否参与推理
- 决定长任务是否会"失忆"
关联
- 容量受 Context Window 限制
- 内容常由 Prompt、Tool 结果和历史消息组成
- 是 LLM 每次推理的直接输入环境
6. Context Window
定义
Context Window 是模型一次最多能处理的 token 数量上限。
作用
它决定模型:
- 最多能看多少信息
- 最多能记住多少对话历史
- 能否一次处理长文档
- 是否需要 RAG 或分块策略
学习意义
理解 Context Window 后,就能理解:
- 长对话为什么会遗忘
- 大文档为什么要切分
- 为什么系统设计要重视上下文管理
关联
- 限制 Context 的容量
- 与 RAG 密切相关
- 目前主流模型的context window的大小为:
GPT-5.4: 105万
Gemini 3.1 pro: 100万
claude opus 4.6: 100万
7. Prompt
定义
Prompt 是输入给模型的指令、问题或约束信息。
prompt engineering:提示词工程,即让大模型更精准的理解你的意图,即告知大模型它是谁,它应该按照什么规则做事
作用
它决定:
- 模型要做什么
- 以什么方式回答
- 输出格式是什么
- 重点关注哪些信息
分类
- System Prompt:说明人设和规则的,它是开发者自己在后台配置的
- Tool:工具/函数,给定输入得到输出。给大模型提供一套它可以调用的外部能力,让大模型能感知外部的环境
- User Prompt:说明具体任务,即用户自己输入的
学习意义
Prompt 并不神秘,本质上是任务表达和行为约束的设计。
关联
- 是 Context 的重要组成部分
- 用于驱动 LLM
- 在 Agent 中常与 Agent Skill 配合使用
7.1. System Prompt
定义
System Prompt 是系统层面的全局规则说明。
作用
它通常用于定义:
- 模型角色
- 回答风格
- 行为边界
- 全局优先级
例子
- 你是一名数学老师
- 回答要循序渐进
- 不直接给最终答案
与 Agent Skill 的区别
System Prompt 更偏"总规则"和"角色设定",
Agent Skill 更偏"场景化执行手册"。
关联
- 属于 Prompt
- 是 Context 的一部分
- 与 User Prompt 共同约束 LLM
7.2. User Prompt
定义
User Prompt 是用户直接输入的具体问题或任务。
例子
帮我总结这篇文章
帮我查明天天气
解释一下 MCP 是什么
作用
它定义当前任务目标。
关联
属于 Prompt
是 Context 的组成部分
与 System Prompt 一起驱动 LLM
8. RAG
定义
RAG(Retrieval-Augmented Generation)是检索增强生成。
核心思想
不是把所有知识直接塞进 Context,而是先从外部资料中检索出最相关内容,再发给模型。
解决的问题
Context Window 有限
全量塞入成本高
模型需要更准确的外部知识支持
典型场景
企业知识库问答
文档问答
长资料理解
搜索增强生成
关联
用于缓解 Context Window 限制
常与 LLM 和 Agent 一起使用
9. Tool
定义
Tool 本质上是一个函数或外部能力接口。
它能做什么
查询天气
搜索网页
访问数据库
调地图服务
执行代码
发邮件
读写文件
为什么需要工具
LLM 本身只会输出文本,它不能直接感知实时世界,也不能直接执行程序操作。
Tool 用于补足这部分能力。
关键理解
LLM 不会"直接执行工具",它只会输出"调用建议"或"调用指令"。
关联
调用流程见 Tool Calling
工具接入标准见 MCP
常被 Agent 使用
10. Tool Calling
定义
Tool Calling 指模型发出工具调用意图,由平台执行工具,再把结果回传模型的过程。
标准流程
用户提出问题
平台把问题和可用 Tool 列表发给模型
模型判断要调用哪个工具,并生成调用指令
平台实际执行工具
平台把结果发回模型
模型生成最终回答
核心认知
模型只负责"决定调用什么",真正负责"执行"的是平台。
为什么必须有平台
因为 LLM 本质是数学函数,只能输出文本,不能直接运行代码或操作外部系统。
关联
基于 Tool
常见于 Agent
工具接入规范可由 MCP 统一
11. MCP
定义
MCP(Model Context Protocol)是一种统一的模型工具接入协议。
工具如何接到平台:
如果我们使用chatGPT,则需要按照openAI的介入规范将工具接入到平台,
如果用的Claude,则需要按照anthropic的接入规范
如果使用Gemini,则需要按照Google的接入规范将工具接入到平台
MCP:因此就有开发者想统一一套标准,所有的工具开发者都只需要写一套tool代码,就能接入到不同的平台。
要解决的问题
不同模型平台的工具接口规范不同,导致:
- 工具难复用
- 接入成本高
- 维护复杂
MCP 的价值
让开发者可以按照统一规范接入工具,提高跨平台兼容性。
类比
像统一充电口或统一接口标准。
本质
MCP 的重点不是让模型更聪明,而是让工具生态更标准化、更容易集成。
关联
服务于 Tool 生态
方便 Agent 集成外部能力
12. Agent
定义
Agent 是具备任务拆解、规划、工具调用和迭代执行能力的系统。
核心能力
理解目标
拆解步骤
调用多个 Tool
根据中间结果继续判断下一步
直到完成任务
与普通聊天机器人的区别
普通对话模型通常是"一问一答";Agent 更像"接收目标后自主执行流程"。
典型特征
多步
自主
目标导向
可调用外部工具
能进行中间状态迭代
关联
内部通常依赖 LLM
常使用 Tool / Tool Calling
复杂任务中常结合 Agent Skill
13. Agent Skill
定义
Agent Skill 是给 Agent 准备的一份结构化操作说明文档,通常使用 Markdown 编写。
通常包含
任务目标
步骤说明
判断逻辑
输出格式
示例
异常处理规则
作用
它把复杂 prompt 或流程经验沉淀下来,让用户不必每次重复输入长指令。
当agent skills定义完成后我们需要存储到电脑指定的位置里。比如Claude code,我们需要找到用户目录下的./claude/skills文件夹,接下来存放操作必须满足两个规定:
在目录下新建一个文件夹,文件夹必须与agent skills名字相同,如我们的agent skills的文件名为go-out-checklist,那么则需要命名一个文件夹名字为go-out-checklist. 进入到go-out-checklist文件夹后,必须命名一个名字为"SKILL.md"的文件,并将agent skills的内容贴进去。
本质
Agent Skill 更像一份"可复用 SOP"。
与 System Prompt 的区别
- System Prompt:偏全局规则与角色设定
- Agent Skill:偏具体场景中的详细执行流程
额外要点
"渐进式披露"思路:不是一次性加载所有 skill 内容,而是在需要的时候再加载对应部分,以节省 token。
关联
服务于 Agent
与 Prompt 有重叠但更结构化
受 Context Window 限制影响
三、关键问题理解
1. 为什么 LLM 不能直接调用 Tool?
因为 LLM 本质上只是一个数学模型。 它的输出形式只有文本或结构化文本。
它不能真的:
- 发请求
- 查数据库
- 跑代码
- 操作系统
模型只能输出"请调用某个工具并传入这些参数"的意图;真正执行的是平台程序。
2. 为什么要有 MCP?
工程问题
如果每个平台都有一套自己的工具接入方式,那么开发者就要重复造轮子。
MCP的意义
降低接入成本
提高跨平台复用能力
促进生态标准化
3. 为什么 Agent 比普通聊天更强?
因为它不只是回答
它能:
- 规划
- 分步执行
- 调工具
- 看中间结果
- 继续推进任务
所以本质区别是
普通聊天:回答问题
Agent:完成任务
四、整套逻辑的最简总结
一句话总结
现代 AI 系统的核心机制是:
用 LLM 作为语言生成引擎,用 Context 承载任务信息,用 Prompt 约束行为,用 Tool 连接外部世界,用 MCP 实现标准化接入,再通过 Agent 和 Agent Skill 完成复杂任务。