【大模型入门学习笔记】常见概念总结

一、整体认知框架

现代 AI 系统不能只理解为"一个会聊天的模型"，更应该理解为一个分层系统：

1. 模型层

Transformer

LLM

Tokenizer

Token

2. 运行时信息层

Context

Context Window

Prompt

System Prompt

User Prompt

3. 外部能力扩展层

Tool

Tool Calling

MCP

RAG

4. 应用执行层

Agent

Agent Skill

二、概念笔记

1. LLM

定义

LLM（Large Language Model，大语言模型）是基于 Transformer 架构训练出来的语言模型。

本质

它的本质可以理解为一个"高级文字接龙系统"：

根据已有上下文，预测下一个最可能出现的 Token。

关键特征

本质是概率预测

输出是逐 token 生成的

不具备真正意义上的长期记忆

不直接执行外部操作

需要借助 Context、Prompt、Tool 才能形成完整应用能力

容易混淆的点

很多人会把 LLM 理解为"像人一样思考"。

更准确地说，它底层是在做序列建模与概率生成。

关联

基于 Transformer

处理单位是 Token

工作时依赖 Context

通过 Prompt 接收任务

借助 Tool 扩展外部能力

被 Agent 用作核心推理与生成引擎

2. Transformer

定义

Transformer 是现代大模型的底层神经网络架构。

作用

它擅长处理长文本序列中的依赖关系，是绝大多数现代 LLM 的基础。

学习意义

理解 Transformer 是理解现代 AI 技术栈的起点，但在应用层面更重要的是知道：

LLM 建立在它之上

它支持长序列建模

它推动了现代生成式 AI 的爆发

关联

支撑 LLM

3. Token

定义

Token 是大模型处理文本时使用的最小/基本单位。

注意

Token 不等于：

一个汉字

一个英文单词

一个自然语言词语

它是模型内部使用的切分单位。

1个token对应的是0.75个英文单词/1.5-2个汉字。那么40万token本质上对应的是60-60万个汉字或者30万个英文单词。

重要性

Context Window 的容量通常按 token 计算

API 成本通常按 token 计算

输入输出长度限制也通常按 token 计算

关联

由 Tokenizer 编码和解码

构成 Context 的基本单位

是 LLM 的输入输出粒度

https://platform.openai.com/tokenizer

4. Tokenizer

定义

Tokenizer 是把自然语言文本和模型内部数字表示连接起来的编码/解码模块。

两个核心功能

编码：文本 → Token / token ID

解码：token ID → 文本

本质

因为 LLM 本质上只能处理数字，不能直接处理自然语言，所以必须依赖 Tokenizer。

关联

负责生成 Token

服务于 LLM

5. Context

定义

Context 是模型在当前任务中能"看到"的全部信息总和。

通常包括

System Prompt
User Prompt
历史对话
用户输入
当前返回结果/输出
工具列表

本质理解

Context 可以看作模型的"临时记忆体"。

模型不是永久记住之前聊过的话，而是平台每次调用时，把相关历史重新打包给模型。

关键意义

决定模型当前知道什么
决定模型能否保持对话连续性
决定工具结果能否参与推理
决定长任务是否会"失忆"

关联

容量受 Context Window 限制
内容常由 Prompt、Tool 结果和历史消息组成
是 LLM 每次推理的直接输入环境

6. Context Window

定义

Context Window 是模型一次最多能处理的 token 数量上限。

作用

它决定模型：

最多能看多少信息
最多能记住多少对话历史
能否一次处理长文档
是否需要 RAG 或分块策略

学习意义

理解 Context Window 后，就能理解：

长对话为什么会遗忘
大文档为什么要切分
为什么系统设计要重视上下文管理

关联

限制 Context 的容量
与 RAG 密切相关
目前主流模型的context window的大小为：
GPT-5.4: 105万
Gemini 3.1 pro: 100万
claude opus 4.6: 100万

7. Prompt

定义

Prompt 是输入给模型的指令、问题或约束信息。

prompt engineering：提示词工程，即让大模型更精准的理解你的意图，即告知大模型它是谁，它应该按照什么规则做事

作用

它决定：

模型要做什么
以什么方式回答
输出格式是什么
重点关注哪些信息

分类

System Prompt：说明人设和规则的，它是开发者自己在后台配置的
Tool：工具/函数，给定输入得到输出。给大模型提供一套它可以调用的外部能力，让大模型能感知外部的环境
User Prompt：说明具体任务，即用户自己输入的

学习意义

Prompt 并不神秘，本质上是任务表达和行为约束的设计。

关联

是 Context 的重要组成部分
用于驱动 LLM
在 Agent 中常与 Agent Skill 配合使用

7.1. System Prompt

定义

System Prompt 是系统层面的全局规则说明。

作用

它通常用于定义：

模型角色
回答风格
行为边界
全局优先级

例子

你是一名数学老师
回答要循序渐进
不直接给最终答案

与 Agent Skill 的区别

System Prompt 更偏"总规则"和"角色设定"，

Agent Skill 更偏"场景化执行手册"。

关联

属于 Prompt
是 Context 的一部分
与 User Prompt 共同约束 LLM

7.2. User Prompt

定义

User Prompt 是用户直接输入的具体问题或任务。

例子

帮我总结这篇文章

帮我查明天天气

解释一下 MCP 是什么

作用

它定义当前任务目标。

关联

属于 Prompt

是 Context 的组成部分

与 System Prompt 一起驱动 LLM

8. RAG

定义

RAG（Retrieval-Augmented Generation）是检索增强生成。

核心思想

不是把所有知识直接塞进 Context，而是先从外部资料中检索出最相关内容，再发给模型。

解决的问题

Context Window 有限

全量塞入成本高

模型需要更准确的外部知识支持

典型场景

企业知识库问答

文档问答

长资料理解

搜索增强生成

关联

用于缓解 Context Window 限制

常与 LLM 和 Agent 一起使用

9. Tool

定义

Tool 本质上是一个函数或外部能力接口。

它能做什么

查询天气

搜索网页

访问数据库

调地图服务

执行代码

发邮件

读写文件

为什么需要工具

LLM 本身只会输出文本，它不能直接感知实时世界，也不能直接执行程序操作。

Tool 用于补足这部分能力。

关键理解

LLM 不会"直接执行工具"，它只会输出"调用建议"或"调用指令"。

关联

调用流程见 Tool Calling

工具接入标准见 MCP

常被 Agent 使用

10. Tool Calling

定义

Tool Calling 指模型发出工具调用意图，由平台执行工具，再把结果回传模型的过程。

标准流程

用户提出问题

平台把问题和可用 Tool 列表发给模型

模型判断要调用哪个工具，并生成调用指令

平台实际执行工具

平台把结果发回模型

模型生成最终回答

核心认知

模型只负责"决定调用什么"，真正负责"执行"的是平台。

为什么必须有平台

因为 LLM 本质是数学函数，只能输出文本，不能直接运行代码或操作外部系统。

关联

基于 Tool

常见于 Agent

工具接入规范可由 MCP 统一

11. MCP

定义

MCP（Model Context Protocol）是一种统一的模型工具接入协议。

工具如何接到平台：

如果我们使用chatGPT，则需要按照openAI的介入规范将工具接入到平台，

如果用的Claude，则需要按照anthropic的接入规范

如果使用Gemini，则需要按照Google的接入规范将工具接入到平台

MCP：因此就有开发者想统一一套标准，所有的工具开发者都只需要写一套tool代码，就能接入到不同的平台。

要解决的问题

不同模型平台的工具接口规范不同，导致：

工具难复用
接入成本高
维护复杂

MCP 的价值

让开发者可以按照统一规范接入工具，提高跨平台兼容性。

类比

像统一充电口或统一接口标准。

本质

MCP 的重点不是让模型更聪明，而是让工具生态更标准化、更容易集成。

关联

服务于 Tool 生态

方便 Agent 集成外部能力

12. Agent

定义

Agent 是具备任务拆解、规划、工具调用和迭代执行能力的系统。

核心能力

理解目标

拆解步骤

调用多个 Tool

根据中间结果继续判断下一步

直到完成任务

与普通聊天机器人的区别

普通对话模型通常是"一问一答"；Agent 更像"接收目标后自主执行流程"。

典型特征

多步

自主

目标导向

可调用外部工具

能进行中间状态迭代

关联

内部通常依赖 LLM

常使用 Tool / Tool Calling

复杂任务中常结合 Agent Skill

13. Agent Skill

定义

Agent Skill 是给 Agent 准备的一份结构化操作说明文档，通常使用 Markdown 编写。

通常包含

任务目标

步骤说明

判断逻辑

输出格式

示例

异常处理规则

作用

它把复杂 prompt 或流程经验沉淀下来，让用户不必每次重复输入长指令。

当agent skills定义完成后我们需要存储到电脑指定的位置里。比如Claude code，我们需要找到用户目录下的./claude/skills文件夹，接下来存放操作必须满足两个规定：

在目录下新建一个文件夹，文件夹必须与agent skills名字相同，如我们的agent skills的文件名为go-out-checklist，那么则需要命名一个文件夹名字为go-out-checklist. 进入到go-out-checklist文件夹后，必须命名一个名字为"SKILL.md"的文件，并将agent skills的内容贴进去。

本质

Agent Skill 更像一份"可复用 SOP"。

与 System Prompt 的区别

System Prompt：偏全局规则与角色设定
Agent Skill：偏具体场景中的详细执行流程

额外要点

"渐进式披露"思路：不是一次性加载所有 skill 内容，而是在需要的时候再加载对应部分，以节省 token。

关联

服务于 Agent

与 Prompt 有重叠但更结构化

受 Context Window 限制影响

三、关键问题理解

1. 为什么 LLM 不能直接调用 Tool？

因为 LLM 本质上只是一个数学模型。它的输出形式只有文本或结构化文本。

它不能真的：

发请求
查数据库
跑代码
操作系统

模型只能输出"请调用某个工具并传入这些参数"的意图；真正执行的是平台程序。

2. 为什么要有 MCP？

工程问题

如果每个平台都有一套自己的工具接入方式，那么开发者就要重复造轮子。

MCP的意义

降低接入成本

提高跨平台复用能力

促进生态标准化

3. 为什么 Agent 比普通聊天更强？

因为它不只是回答

它能：

规划
分步执行
调工具
看中间结果
继续推进任务
所以本质区别是

普通聊天：回答问题

Agent：完成任务

四、整套逻辑的最简总结

一句话总结

现代 AI 系统的核心机制是：

用 LLM 作为语言生成引擎，用 Context 承载任务信息，用 Prompt 约束行为，用 Tool 连接外部世界，用 MCP 实现标准化接入，再通过 Agent 和 Agent Skill 完成复杂任务。