1.4 核心名词解释：Token、RAG、Agent、MCP是什么

本文适合谁：刚接触AI开发、被各种术语搞晕的读者。读完这篇，你会对课程中反复出现的核心词有清晰的直觉理解，不再看到这些词就发懵。

本文阅读时间：约14分钟

学这门课，你会反复看到这些词：Token、Embedding、RAG、Agent、MCP......

每次看到都似懂非懂？这篇文章专门解决这个问题。

我们会对照权威定义，用生活化的类比，把这些词一次性说清楚。

1.1 Token：人与机器对话的"翻译官"

在了解AI开发的第一天起，你可能就遇到了这个词：token。

它频繁出现在各种场合：API文档说"每1000个token收费多少钱"，开发者说"这个模型的上下文窗口是128K token"，技术文章说"LLM的训练目标是预测下一个token"。

那么，token到底是什么？

1.1.1 Token是什么？

Token是大语言模型处理文字时使用的最小单位。

不是按照"词"来分，也不是按照"字"来分，而是由一套专门的"分词算法"切割的基本片段。token可以是一个词、半个词、一个字、一个标点符号，甚至是一个空格。

举个例子：

复制代码

英文句子：  "Hello, world!"
Token切割：["Hello", ",", " world", "!"]  → 4个Token

中文句子：  "你好世界"
Token切割：["你好", "世界"]  → 2个Token

英文单词：  "understanding"
Token切割：["under", "stand", "ing"]  → 3个Token

1.1.2 为什么中英文Token数不同？

这是很多人第一次接触Token时会困惑的问题。

根本原因是训练数据的构成。主流大语言模型的训练数据中，英文内容占绝大多数。分词算法（Tokenizer）是在这些训练数据上优化的，英文词汇被切割成了非常紧凑的token------常见英文单词通常是1个token，不常见单词被拆分成2-3个。

而中文字符对分词算法来说是"高频但不熟悉"的字符组合，所以切割粒度更粗。

实际结果：

英文：1个token ≈ 4个字母（或约0.75个单词）
中文：1个token ≈ 1到1.5个汉字

这意味着同样的内容，用中文写的token数要比英文多。这直接影响API调用成本和模型的实际处理能力。

一个实际影响：如果一个模型的上下文窗口是128K token，处理英文内容大约能支持约10万个单词（约200页），而处理中文内容大约只有约10万个汉字（约140页）。

1.1.3 Token在模型里是怎么工作的？

在大模型生成内容的过程中，需要先把人们输入的文字转化成一个个token，然后根据对上下文中所有token的理解和分析，预测接下来应该生成的token内容，再将这些token转换成人们熟悉的文字输出。

在整个过程中，token像极了人类与机器对话的"翻译官"------让不懂机器语言的普通人，也能跨越技术鸿沟，轻松和机器对话。

1.1.4 Token和上下文窗口的关系

模型能"记住"的对话内容是有上限的------这就是上下文窗口（Context Window），以token为单位计量。

超过这个上限，模型就会"忘记"最早的内容，就像工作记忆有容量限制一样。

主流模型的上下文窗口（以官方最新文档为准，以下为参考值）：

GPT-4o：128K token（约10万英文单词）
Claude 3.5 Sonnet：200K token（约15万英文单词）
Gemini 1.5 Pro：1M token（约75万英文单词）

越大的上下文窗口，意味着可以处理更长的文档、更长的对话历史------但成本也更高。

1.1.5 Token也是计费单位

除了文本处理的最小单位，token也是AI API的计费单位。你每次调用大模型API，费用取决于：

输入了多少token（你发给模型的内容）
输出了多少token（模型返回给你的内容）

通常输出token比输入token贵2-4倍，因为生成比理解需要更多计算。

后续学习：第6章《LLM基础》会详细讲token化（Tokenization）的工作原理。

1.2 Embedding：把文字变成"坐标"

如果说token是把文字切碎，那Embedding就是把这些碎片放进一个"意义空间"，给每段文字标上坐标。

1.2.1 为什么要把文字变成数字？

计算机不理解文字，只会算数学。要让AI知道"猫"和"狗"比"猫"和"汽车"更相似，必须把文字转成数字才能计算相似度。

Embedding（向量化/嵌入）做的就是这件事：把每段文字转换成一串数字（向量），使得语义相近的文字，转成的数字向量也更接近。

复制代码

"猫"  → [0.2, 0.8, 0.1, ...]
"狗"  → [0.3, 0.7, 0.2, ...]   ← 和猫的向量很接近（语义相关）
"汽车" → [0.9, 0.1, 0.8, ...] ← 和猫的向量差很远（语义无关）

1.2.2 这有什么用？

最重要的应用是语义搜索------不是找关键词，而是找意思相近的内容。

你问"怎么提升工作效率"，传统关键词搜索找不到标题是"时间管理技巧"的文章（因为词不一样）；语义搜索可以，因为两者的Embedding向量很接近，AI知道它们讲的是相关的事情。

这正是RAG系统（下一节）的核心机制。

后续学习：第6章《LLM基础》和第11章《RAG》会深入讲Embedding的原理和应用。

1.3 RAG：给AI接上"外挂知识库"

全称：Retrieval-Augmented Generation（检索增强生成）

1.3.1 大模型的两个硬伤

大语言模型有两个天然的局限：

第一，知识有截止日期。 模型在某个时间点完成训练，之后发生的事它一概不知。你问它"最新的iPhone是哪款"，它只能告诉你训练截止前的信息。

第二，不认识你的私有数据。 公司内部文档、你的个人笔记、行业私有数据库------这些模型从来没见过，自然无法回答相关问题。

RAG就是为了解决这两个问题而生的。

1.3.2 RAG是怎么工作的？

按照AWS的定义：RAG对LLM输出进行优化，使其能在生成前引用训练数据来源之外的权威知识库。

思路很朴素------让AI在回答之前先去查资料。

复制代码

没有RAG：
用户问："我们公司Q3的销售数据是多少？"
AI答："对不起，我没有这个信息。"

有RAG：
① 先去公司知识库检索相关文档
② 找到Q3销售报告
③ 基于报告内容回答："根据Q3报告，销售额为..."

一个很好的类比：RAG就像开卷考试。没有RAG的AI是闭卷考试------只能用脑子里记住的知识；有RAG的AI是开卷考试------可以翻书查资料，但最终还是要自己理解和组织答案。

1.3.3 RAG的四个阶段

按照AWS的定义，RAG完整流程包括四个阶段：

第一阶段：创建外部数据

把你的知识库（PDF文档、网页、数据库、内部Wiki等）转换成AI可以检索的格式：

把文档切割成合适大小的片段（比如每段500字）
用Embedding模型把每个片段转成向量
存入向量数据库（一种专门存储和检索向量的数据库）

第二阶段：检索相关内容

用户提问时，同样把问题转成向量，然后在向量数据库里找出最相似的几个文档片段------这就是"检索"。

第三阶段：增强提示词

把检索到的文档片段塞进发给LLM的提示词里，告诉它："这是相关参考资料，请基于这些内容回答问题"。

第四阶段：持续更新

外部数据需要定期更新------新文档加进来，旧文档过期了要删除。这保证了知识库始终是最新的。

复制代码

用户问题
    ↓
① 问题向量化（Embedding）
    ↓
② 向量检索（找相似文档片段）
    ↓
③ 把检索结果塞进Prompt
    ↓
④ LLM基于Prompt作答
    ↓
答案给用户

后续学习：第11章《RAG》完整讲解如何构建RAG系统，从文档切割到向量检索到最终生成。

1.4 Agent：能自主行动的AI

如果说普通AI是一个博学的顾问------你问什么它答什么，那Agent就是一个既能出主意、又能亲自去执行的助理。

1.4.1 普通AI和Agent的区别

普通AI（问答模式）：你问，它答。它能说，但不能做。

Agent（行动模式）：你给它一个目标，它自己制定计划、调用工具、一步步完成任务。

复制代码

普通AI：
用户："帮我分析这份报告"
AI：（分析后）"报告的主要结论是..."
→ 只能说，不能做

Agent：
用户："帮我分析这份报告，然后发邮件给老板"
Agent：
  ① 读取报告文件（调用文件读取工具）
  ② 分析内容（用LLM推理）
  ③ 起草邮件（用LLM生成）
  ④ 发送邮件（调用邮件发送工具）
→ 能说，也能做

按照AWS的定义：**AI Agent是与环境交互、收集数据、执行满足预定目标的自主任务的软件程序。**核心循环：感知→决策→行动。

1.4.2 Agent的四个核心能力

能力	说明	类比
感知	接收输入（文字、图片、文件、网页）	眼睛和耳朵
规划	把大任务拆成小步骤	大脑思考
行动	调用工具执行（搜索、读写文件、发请求）	手脚
反思	检查结果，出错了重试	自我纠错

1.4.3 工具调用：Agent行动的基础

Agent能行动，靠的是工具调用（Function Calling / Tool Use）。

简单说，就是给LLM准备一批可以调用的函数，比如：

search_web(query) --- 搜索网络
read_file(path) --- 读取文件
send_email(to, subject, body) --- 发邮件
query_database(sql) --- 查询数据库

LLM决定"什么时候用哪个工具、传什么参数"，工具负责实际执行，结果再返回给LLM。整个过程LLM是"大脑"，工具是"手脚"。

1.4.4 Agent的七种类型

按照AWS的分类，Agent根据复杂度和能力，可以分为七种类型：

类型	特点	类比
简单反射型	只根据当前输入做决定，不考虑历史	自动门（有人就开）
基于模型型	维护一个内部世界模型，考虑历史状态	导航APP（知道你在哪里）
基于目标型	根据目标来规划行动，不只是反应	旅行规划助手
基于效用型	权衡不同选项的"效用"，选最优方案	投资顾问（评估风险收益）
学习型	能从经验中学习，不断改进策略	个性化推荐系统
分层型	由多个层级的Agent组成，高层指挥低层	公司管理体系
多Agent型	多个Agent协作，各有分工	协作团队

当前主流的LLM Agent，大多是基于目标型或基于效用型的变体。多Agent型是目前的研究热点------让多个专业Agent分工协作，完成复杂任务。

后续学习：第9章《工具调用》讲如何给AI接工具；第12章《Agent基础》讲如何构建完整的Agent系统。

1.5 MCP：让AI工具标准化的"USB接口"

全称：Model Context Protocol（模型上下文协议）

1.5.1 没有标准之前的混乱

在MCP出现之前，每家公司给AI接工具的方式都不一样：

给Claude接GitHub工具要写一套代码
给GPT接同一个GitHub工具，要重新写一套
换个新模型，所有工具代码全部重写

这就像每家电器厂商都用自己的充电接口------你买了三台设备，就得带三根不同的充电线。

1.5.2 MCP的出现

2024年底，Anthropic提出了MCP这个开放标准，定义了AI模型和外部工具之间"怎么沟通"的统一格式。

就像USB标准的出现，让所有设备都能插到同一个口子上：

复制代码

没有MCP（接口碎片化）：
Claude  ←→ 专属GitHub连接器（一套代码）
GPT     ←→ 另一套GitHub连接器（要重写）

有MCP（统一接口）：
Claude  ──┐
GPT     ──┤── MCP标准接口 ──→ GitHub MCP Server
Gemini  ──┘                ──→ 数据库MCP Server
                           ──→ Slack MCP Server

任何支持MCP的AI，都能直接用任何MCP工具------写一次，到处用。

1.5.3 MCP的三个角色

角色	作用	类比
MCP Server	提供工具的服务（如GitHub Server）	USB设备
MCP Client	使用工具的AI应用	带USB接口的电脑
MCP协议	两者之间的通信规范	USB标准本身

1.5.4 MCP的生态现状（截至2026年3月）

MCP从2024年底发布以来，生态扩展速度超出预期：

主流AI平台支持：Claude（Anthropic原生支持）、GPT（OpenAI官方支持）、Gemini（Google支持）已成为标配
官方MCP Server：Anthropic维护了一批官方MCP Server，包括文件系统、数据库、浏览器、GitHub、Slack等常用工具
社区生态：GitHub上已有数千个社区贡献的MCP Server，覆盖从ERP系统到各类SaaS服务
IDE集成：Cursor、VS Code等主流开发工具已内置MCP支持，让AI编程助手能直接访问本地文件和工程上下文
企业采用：越来越多的企业开始将内部系统通过MCP暴露给AI，用于自动化内部流程

MCP已成为Agent工具集成的主流标准，几乎所有新的AI应用框架都在优先支持MCP。

后续学习：第10章《MCP协议》完整讲解如何使用和开发MCP工具。

1.6 一张图，把它们串起来

图1.6：核心概念协同工作流------从用户输入到最终输出的完整链路

串联起来理解：

你的文字输入被切成Token送给LLM
LLM如果需要查资料，通过Embedding 在RAG知识库里找相关内容
如果需要执行任务，LLM作为Agent 大脑，通过MCP协议调用各种工具
工具执行完把结果返回，最终给你答案

1.7 快速记忆卡片

词	一句话
Token	AI读文字的最小片段，也是计费单位；中文比英文多用token
Embedding	把文字变成数字向量，语义相近的向量也相近，让AI能算相似度
RAG	先查资料再回答，四个阶段：创建数据/检索/增强/持续更新
Agent	能自主感知、规划、调用工具、完成多步任务的AI，有7种类型
工具调用	Agent调用函数/API执行实际操作的机制，是Agent行动的基础
MCP	AI工具的统一接口标准，写一次到处用，已成主流

下一步：第1章到这里结束。带着这张名词地图，进入第2章《Python基础》------从这里开始动手写代码。