前言

现在的 AI 圈子有点像当年的互联网泡沫期，新名词满天飞。今天一个 RAG，明天一个 MCP，后天又是 Agent Skill。

互联网行业很多的朋友都被这些术语吓退，跟别提其它行业的朋友了。其实剥开这些"洋气"的外衣，会发现它们解决的都是很朴素的工程问题，所谓智能体就是所有不需要智能的部分构成的，部分 Skill 就是新瓶装旧酒的一场名词诈骗。当然资本和媒体的营销与造势也"功不可没"。

今天，我就按照我的理解，按照大模型领域发展的时间线，把这些概念像搭积木一样，从最底层的原理逐步向上构建，深度解析这些看似晦涩难懂的名词。

第一阶段：基石篇------大模型的"原子"与"记忆

一切的起点，都源于大模型本身及其处理信息的基本方式。

1. LLM(Large Language Model): 会玩文字接龙的天才

LLM 全称 Large Language Model，翻译成中文就是大语言模型，简称大模型。基本上现在所有的大模型都是基于 Transformer 这套架构训练出来的，这个架构看起来很复杂，实际上一点也不简单。我也只做基本了解，不理解它不影响我们理解其概念，然后用好它。大模型的底层引擎就是它 Transformer 架构最早其实是由 Google 团队在 2017 年的时候提出来的，对应的论文名是叫做 Attention Is All You Need。然而早期训练出来的模型，看起来很"弱智"，直到 OpenAI 在 2022 年底推出的 GPT 3.5 才真正把它点燃并且引爆全世界。这时候的模型具备了一定的智能，它应该算是第一个真正达到可用级别的大模型了，用过的人都能感受到它的强大，此时它的训练的参数量已经非常庞大了，所以被称为了大语言模型。仅仅几个月之后在 2023 年 3 月份 GPT 4 发布它是直接把 AI 的能力天花板拉到了一个新的高度，直到今天 GPT-5.4 依然是业界的标杆之一。

介绍完了大模型的概念，接下来，我们直观认识一下，大模型的工作方式。首先，需要打破一个幻想：大模型并不是像科幻电影里面的机器人一样思考问题。

它的本质是一个超级巨大的"文字接龙"游戏，从工程视角看，它就是一个庞大的数学函数。你给它上文，它根据概率算出下一个最可能出现的字或者词，然后把这个字加进去，再算下一个，不断重复这个过程（预测下一个词 -> 塞回输入 -> 再预测），直到生成完整的回答。这就好像你打字时的"联想输入法"，只不过它的训练数据是整个互联网，所以它接出来的龙，有时候深邃得像哲学家，有时候又无聊得像复读机。它并不像人类一样真正"理解"语义。

2. Token: AI 的乐高积木------大模型的"最小计量单元"

既然大模型处理的是数学运算，它就无法直接读懂人类的文字，它接收的是数字输出的也是数字，所以在人类和大模型之间必须有一个中间人来做翻译，这个中间人就叫做 Tokenizer ，它负责的是编码和解码两件事情。编码就是把文字变成数字，解码反过来是把数字还原成文字。

你给大模型提一个问题，用自然语言描述了一句话，比如"你叫什么名字"，这句话会先交给 Tokenizer 处理，它要把这些文字转换成数字需要分两步：

第一步切分，它把用户的问题接过来把它拆成一个一个最小的片段，【"你"，"叫"，"什么"，"名字"】。这些片段就叫做 Token。我们这里一共是切出了 4 个 Token 。
第二步映射，由于模型只认数字， Tokenizer 就会把每一个 Token 对应到一个数字上去，举个例子：【"1011"，"2322", "6451", "3278"】。这个数字就叫做 Token ID。

Token ID 和 Token 是一一对应绑定的，Token 是文字，Token ID 是数字。这两个其实本质上是一个意思，只不过是换了种表达方式而已，经过了这两步，原来的一句话就变成了一串 Token ID 组成的列表。然后 Tokenizer 会把这串列表送进模型，模型在内部一顿运算。最终吐出了一个 Token ID, 这个时候 Tokenizer 再次出场, 把这个 Token ID 翻译回 Token, 这就是解码环节的工作了，解码只有一步，那就是映射，把数字转换成文字。前面提到，大模型本质上每次只能返回一个 Token ID, 然后会重复这个过程，直到回答完成。

上周二人民日报发文：token 在中文中被正式命名为"词元"。大模型在运算过程中需要消耗大量的能源，作为服务提供商，提供了服务，收取服务费用是应该的。但是它不能像传统服务接口那样，按调用次数收费，传统服务接口，每个接口有着固定的程式，调用之后的运算成本是可控的。大模型调用一次，用户是让它生成八百字的报告还是生成八万字的报告，这些都是未知且不可控的，于是服务商将 Token 作为计费单元。而这也就要求用户对大模型相关概念有一定的理解，如何使用，才能让大模型消耗最少的 Token 又能最精准的回答问题。

总结：

定义：Token 是大模型处理文本的最基本单元。
转换机制：在文字进入大模型前，会经过一个叫做 Tokenizer（分词器）的中间人。它的作用是将文字"切分"并"映射"为数字（Token ID）；输出时再将数字解码回文字。
打个比方：如果把大模型比作厨师，文字就是食材，而 Token 就是被切好的丁、丝、片。一个汉字通常对应 1-2 个 Token，一个英文单词可能是一个，也可能是词根+词缀（如 "unhappiness" 可能被切分为 "un", "happi", "ness"）。
重要性：Token 的数量直接决定了计算成本（费用）和模型的处理能力。

3. Context & Context Window & Memory：大模型的"工作记忆"

大模型本身没有长期记忆，它所有的回答都基于当次对话接收到的信息。只能一问一答，不能追问。

那为了进行多轮对话，有一个办法，就是在每次提问时，把前面的问题和它的回答，也就是历史记录当作背景信息带上，加上当前这次的问题，一起发送给大模型。当聊天轮次越来越多，历史记录就会越来越大，所以可以让大模型对前面的历史记录做一次总结精简之后记录下来，下次提问带上这个总结之后的记录作为背景信息就可以。这个记录就是大模型的上下文。

Context (上下文)：大模型每次处理任务时接收到的信息总和。这不仅包含你刚才的问题，还包含了之前的对话历史、系统设定的角色、甚至可用的工具列表。你可以把它看作是大模型的临时记忆体。
Context Window (上下文窗口)：这是大模型内存的"大小限制"。它代表了 Context 能够容纳的最大 Token 数量。
- 早期：窗口很小（如几千 Token），聊几句就会"失忆"。
- 现在：主流模型（如 GPT-4o, Claude Opus）已达到 100万 Token 级别，这意味着它能"记住"并处理整本《哈利波特》全集那么长的内容。

Context 指的是大模型在处理单次任务时所能接收到的全部信息总和，你可以把它看作是模型的"临时记忆体"或"工作记忆"。然后为了解决更复杂的场景，工程师们又设计出一种能够跨会话、跨任务保存、组织、检索并在后续使用的信息机制，就是 Memory（记忆）。 Memory 让 AI 具备了持续学习和个性化服务的能力。

一个强大的 AI 应用（Agent）需要 Context 和 Memory 的紧密配合。

接收任务：当你提出一个问题时，系统首先会构建当前的 Context（你的问题+对话历史）。
检索记忆：系统会根据你的问题，去 Memory（外部档案库）中检索相关的历史信息和知识。
整合生成：系统将检索到的"记忆"作为补充信息，注入到当前的"上下文"中，形成一个信息更丰富的完整上下文。
输出回答：大模型基于这个增强后的上下文，生成一个既符合当前情境又利用了历史知识的精准回答。
这种协同工作模式，正是当前 AI 技术从"单点能力"转向"系统化工程"的关键。它让 AI 不再是一个每次对话都从零开始的"健忘天才"，而是一个能够与你持续协作、不断成长的智能伙伴。

总结：

Context：解决单次对话的多轮对话的问题。
ContextWindow: 定义了 Context 容量大小限制。
Memory：让 AI 具备了跨会话、跨任务的能力。

第二阶段：交互篇------如何指挥大模型

4. Prompt: 人机对话的"指令"

Prompt（提示词）就是你给大模型的具体问题或指令。比如你让模型"帮我写一首诗"，这句话就是 Prompt。

User Prompt (用户提示词)：用户直接输入的问题（如："3+5等于几？"）。
System Prompt (系统提示词)：这是开发者在后台配置的"潜规则"。它定义了大模型的人设和行事准则，用户通常看不见。
- 例子：后台设定"你是一个耐心的数学老师，不要直接给答案，要引导学生"。当用户问 3+5 时，模型会回答"你可以试着数一下手指..."而不是直接说"8"。

Prompt 怎么写直接决定了大模型的输出质量，一个好的 Prompt 应该是清晰的、具体的、明确的。

早期有个专门的领域叫做 Prompt Engineering ，也就是提示词工程。说白了就是研究怎么把话说明白，让大模型更精准地理解你的意图。但随着模型能力增强，现在即使指令模糊，模型也能较好地猜测意图。

第三阶段------扩展篇------给大模型装上"五官"与"工具箱"

纯靠参数知识的大模型存在两个致命弱点：知识会过时（训练数据有截止日期）和无法感知外界（如查天气、发邮件）。为了解决这些问题，技术开始向外扩展。

5. RAG (Retrieval Augmented Generation)：外挂的"速查手册"

RAG（检索增强生成）是为了解决大模型"一本正经胡说八道"或知识陈旧的问题。

原理：当面对一个专业问题（如查询上千页的产品手册）时，不把整本书塞进 Context（那样太贵且会撑爆窗口），而是先通过语义检索，从外部数据库中找出最相关的几个片段，作为补充资料附在 Prompt 后面，让模型基于这些真实资料回答。
打个比方：这就像是开卷考试。RAG 让大模型在回答前，先快速翻了一下教科书的目录，找到了相关章节，然后再作答。

实际场景：比如某公司，有内部的文档，可能是私有的，不愿意公开的资料。大模型在训练阶段无法拿到这部分数据，那你在对其提问时，它肯定无法准确回答其中的内容。此时通过 RAG 就可以解决这个问题。

6. Tool (Function)：大模型的"手脚"

有了前面的知识，一个原本只能进行词语接龙的大模型，现在变成了可以对话并且可以不断追问的优秀助理了。然后工程师就不满足于现状了，工程师发现的第一个问题就是大模型没有上网查阅资料的能力，要么就不知道，要么就胡说八道，说的内容都是些过时的消息。不过这很简单呀，给大模型准备一台电脑不就可以了。不可以, 还是那个问题，大模型本身只会词语接龙，其他任何逻辑都无法独立完成，那怎么办，好办，工程师就告诉大模型，如果它需要上网搜索资料的话，就告诉我，然后我帮忙查完资料后再给它不就行了？但很快工程师就发现，这样好像显得自己有点蠢，到底谁是谁的助理? 于是工程师把上网这部分逻辑写成了一段程序，让这个程序去代理工程师和大模型进行沟通并且完成搜索的任务，在外人看来仍然是一问一答就拿到了结果，只不过面向的是这个神秘的程序了，太妙了，这个发明可不得了。这段神秘的程序就是一个 Tool。

Tool（工具/函数）是大模型感知外部世界的接口。大模型本身只能做文字游戏，无法真正执行动作。Tool 就是一段代码（函数），输入参数，输出结果。

例子：天气查询工具、计算器、浏览器。
运作流程：
1. 你问："今天上海天气如何？"
2. 大模型发现自己不知道，但看到可用工具列表里有"天气工具"。
3. 它输出一段特定格式的文本（如 {"name": "get_weather", "arguments": {"city": "上海"}}），这叫工具调用（Tool Calling）。
4. 中间的程序（Agent）识别这段文本，真正去调用天气 API。
5. 把 API 返回的真实天气数据塞回给大模型，让它组织语言回答你。

第四阶段：架构篇------统一标准与智能体

7. MCP (Model Context Protocol)：工具的"Type-C 接口"

MCP（模型上下文协议）是为了解决工具接入标准混乱而诞生的统一协议。它解决了一个核心痛点：如何让大模型安全、统一、标准化地连接外部世界（数据、工具、API）。

在 MCP 出现之前，AI 连接外部工具就像以前的手机充电线，每家厂商（OpenAI、Anthropic、Google）都有自己的接口标准，开发者每做一个新功能，都要重新写一套代码适配，非常繁琐且混乱。

MCP 的出现统一了标准：

以前：以前，如果你想把一个"查天气"的工具给 ChatGPT 用，需要写一套 OpenAI 格式的代码；给 Claude 用，又要写一套 Anthropic 格式的代码。开发者苦不堪言。
现在：你只需要开发一个符合 MCP 标准的"服务器"，按照 MCP 标准开发一次工具，它就可以被所有支持 MCP 的大模型平台（ChatGPT, Claude, Gemini 等）直接识别和调用，实现了工具的"一次开发，到处运行"。

8. Agent：给大模型装上了"手脚"

如果说大模型（LLM）是"博学的大脑"，那么 AI Agent（智能体）就是给这个大脑装上了"手和脚"，并赋予了它"独立人格"和"记忆力"。它从一个被动的聊天机器人，变成了一个可以理解目标、自主拆解任务、调用工具并执行到底的智能实体。

可以把 Agent 拆解为四个核心组件，它们共同构成了一个能独立干活的"数字员工"：

组件	角色类比	功能解释
LLM (大模型)	大脑	负责理解意图、逻辑推理、生成决策。它是核心驱动力。
Planning (规划)	思维链	负责将复杂的大目标（如"做个网站"）拆解为一步步可执行的子任务（如"写HTML"、"写CSS"、"部署"）。
Memory (记忆)	经验库	包含短期记忆（上下文，记得刚才干了什么）和长期记忆（向量数据库，存储用户偏好、历史知识），确保持续协作不"失忆"。
Tools (工具)	手和脚	赋予 Agent 与外部世界交互的能力，如联网搜索、运行代码、操作 API、读写文件等。

Agent 的工作方式不再是线性的"输入->输出"，而是一个循环闭环。我们可以用一个"订机票"的例子来模拟这个过程：

感知 (Perception)：

你告诉 Agent："帮我订一张下周二去上海最便宜的机票。"

规划 (Planning)：

Agent 的大脑（LLM）开始思考：要完成这个任务，我需要先查下周二的具体日期，然后搜索航班信息，对比价格，最后调用支付接口。

行动 (Action/Tools)：

Agent 调用搜索工具查询航班列表。
Agent 调用计算器对比价格。

反思与迭代 (Reflection)：

如果发现下周二没票了，Agent 会自我反思："计划行不通"，然后自动调整策略："那我查查周三早上的票，或者看看临近城市的票。"（这是 Agent 区别于传统脚本的关键，它能自我纠错）。

结果 (Output)：

最终，它将筛选好的航班链接和价格发给你确认，甚至直接帮你下单。

为什么 Agent 是现在的热点：

在 2025-2026 年的当下，Agent 之所以爆发，是因为它标志着 AI 从"内容生成"（生成一段文本/图片）转向了"任务解决"（解决一个实际问题）。

自主性：你不需要一步步教它怎么做，只需要给结果。
泛化能力：同一个 Agent，今天可以帮你写代码，明天可以帮你做旅行攻略，因为它依靠的是通用的推理能力，而不是写死的代码。

9. WorkFlow

前面提到 Agent 已经可以自主完成各类事情了。但是那些 Tools 还是需要编码完成。对于普通用户来说，有一定的门槛。于是诞生了很多的低代码平台，比如 Dify、Coze 等。

在低代码平台的产品界面上，Workflow 往往被视为智能体的一种具体表现形式（即"基于工作流的智能体"），但是它和智能体还是有本质的区别。 Workflow 需要用户确定好第一步做什么，第二步做什么，用户在画布上拖拽节点，创建出一条条"带 AI 插件的流水线"。它和真正 Agent 的区别在于，Workflow 是人为决策的，Agent 是目标驱动自主决策。

适用场景：企业里那些必须按规矩办事的流程，比如"合同审批"、"发票报销"。这里如果用纯 Agent，可能会因为 AI 乱发挥而出错，所以必须用 Workflow 锁死步骤。

第五阶段------应用篇------技能化与未来

10. Agent Skill

最后，我们来到了目前最前沿的 Skill（技能）阶段，这是 Agent 走向工程化、模块化的关键一步。

Agent Skill 本质上是给 Agent 看的一份说明文档（通常是一个 Markdown 文件）。

痛点：虽然 Agent 很聪明，但如果你有一些非常私人的、复杂的固定规则（比如特定的周报格式、特定的出门检查清单），每次都靠自然语言描述给 Agent，它容易忘、容易错，而且消耗昂贵的 Token。
定义：Skill 就是将这些复杂的、固定的流程打包成一个独立的"技能包"。
结构：
- 元数据层：技能的名字、描述（相当于门牌号）。
- 指令层：具体的执行步骤、判断逻辑、输出格式、示例（相当于操作手册）。
运作逻辑：
- 按需加载：系统不会把所有技能都塞进 Context（那样太占内存）。当用户提到"写周报"时，系统发现匹配"WeeklyReport"技能，才把这份几百行的详细说明书加载进内存。
- 渐进式披露：平时它只是一个名字，用的时候才展开成复杂的逻辑，极大地节省了成本并提高了准确性。
打个比方：
- Workflow（工作流）像是铺设好的铁轨，列车必须严格按照固定的路线行驶，遇到障碍无法变通。
- Agent Skill 像是一个经验丰富的司机，你告诉它目的地（目标），它根据路况（当前环境）和手中的地图（Skill 文档），自己规划路线开车过去。

总结

回顾这一路的发展，大模型技术的演进逻辑是从单一到复合，从通用到专用：

LLM 是引擎，Token 是燃料，Context 是工作台。
Prompt 是方向盘，RAG 是外挂知识库，Tool 是手脚。
MCP 是统一的插座标准，让工具能即插即用。
Agent 是整车，具备了自动驾驶（自主规划）的能力。
Skill 则是车载的"自动驾驶辅助模块"，让车不仅能开，还能熟练掌握各种特定路况（如倒车入库、高速巡航）。

理解了这些概念，你就看懂了当前 AI 领域几乎所有产品（如 Claude Code, OpenClaw 等）背后的底层逻辑。未来，随着 Token 成本的降低和技术的成熟，这些概念将进一步融合，让 AI 真正成为我们得力的"数字员工"。

拆穿名词诈骗！用大白话理解晦涩难懂的AI概念

前言