一文讲透 LLM，Context，mcp，Skills，Agent，Prompt

AI 圈有非常多的名词，token，LLM，context，prompt，mcp，skills，Agent.....

可能很多词你都听说过，但说实话你真的都懂它们到底是什么？底层逻辑是什么？作用是什么？

如果让你去面试 AI 的岗位，你是真的能讲清楚是什么？还是阿巴阿巴说不清？

就拿 Token 来说，很多人只知道 Token 消耗多 = 烧钱但不知道它的原理，不信你就往下看。

本文我将从小白的角度，从最底层的东西，一层一层的往上讲，把这些概念全部串起来一文全部讲清楚。

看完本期内容，你将对 AI 底层逻辑的理解将有一个质的飞跃。

全文目录

LLM

LLM 的全称是 Large Language Model 翻译成中文就是大语言模型，简称：大模型。

目前市面上的大模型基本上都是基于 Transformer 这套架构设计出来的。

看起来很复杂，但实际上也不简单，看不懂是正常的，只需要知道大模型的底层引擎就是它就好了。

它最早是由 Google 在 2017 年提出来的，但把它带火的却是 OpenAI 。

OpenAI 可以说的上是目前大模型的鼻祖了，毕竟是它开创了大模型的热度先河，到今天 GPT 模型依旧是业界的标杆。

大模型的工作原理：

简单来说的话，它本质上就是一个文字接龙游戏，根据你前面说的话，一个字一个字猜下一个最可能出现的字。

比如：你输入：我今天去公园，看到了一只___

大模型要做的，就是猜下一个字****。

它在脑子里飞快算概率：

小 → 很高
猫 → 很高
狗 → 很高
山 → 很低
飞机 → 极低
桌子 → 几乎不可能

它选概率最高的，比如：小

现在句子变成：我今天去公园，看到了一只小___

它继续猜下一个字：

猫 → 最高
狗 → 次之
鸟 → 也还行
象 → 不太对

输出：猫

句子变成：我今天去公园，看到了一只小猫___

再继续：

。 → 概率最高
在 → 也有可能
跑 → 也有可能

它选句号，结束。

最终你看到：我今天去公园，看到了一只小猫。

但我们要知道的是，它是不会思考的，只会预测，你问它问题的时候，它不是在理解你、然后查资料、再进行推理回答。

而是在做一件事：在当前这句话后面，推测哪个字概率最高，就输出哪个**。**

那你可能会问了，我看现在好多 AI 模型都带有深度思考啊，你怎么说没有呢？

现在的模型看起来会深度思考，但其实不是它真的会思考，而是它学会了【模仿人类思考的步骤】。

Token

很多人只知道大模型干活烧 Token ，烧钱，但是不知道原理是什么。

如果你了解 Token 的在大模型中的运行逻辑原理，那你在使用大模型的时候，就能够极大的帮你省下不少的 Token （钱）

当我们提问题给大模型之后，大模型就会源源不断回复你一些词，但其实这是为了方便你理解，而简化的一种方式。

实际情况是：大模型本质上是一个庞大的数学函数，里面是以矩阵运算来进行的，它接收的是数字，输出的也是数字，它并不认识人类写的文字/英文，只认识数字（Token ID）。

因此在用户与大模型之间需要存在一个中间层作为翻译，这个中间层就叫做 Tokenizer 。

Tokenizer 它负责的是编码和解码两件事情。编码就是把文字变成数字，解码反过来就是把数字还原成文字。

比如当我向大模型输入：今天天气很好，我想去公园散步。

文字就会【经过】Tokenizer 把内容进行【切分】变成 Token，然后再把 Token【转化成】Token ID。

例子中这段内容就会经过 Tokenizer 先切出三个 Token 分别是今天，天气，公园，然后再把这三个 Token 进行编码今天 → 编号 1832，天气 → 编号 5961，公园 → 编号 3047。

然后模型看到的就是【1832，5961，3047】，这就是编码的过程。

Token 在这里是文字，是大模型切出来的碎片，Token ID 是数字，这两者本质上是一个意思，只不过是换了种表达的方式。

刚才我们了解了我们向大模型【提问】时的编码过程，我们继续了解，大模型向我们【回答】时的解码过程。

大模型接收到 Token ID 之后，会根据概率较大情况进行匹配 Token ID ，也就是上一节说的 LLM 原理，返回一些 Token ID 给到中间层 Tokenizer 再翻译成中文给我们。

比如刚才的公园【编号 3047】大模型收到后，返还一个【编号3088】，然后 Tokenizer 收到编号后，将编号翻译成公园很大给我们。

一句话总结来说：Token 就是大模型眼里的 "文字最小单位"，不是字，也不是词，是模型切出来的碎片。我们提问的时候它会根据我们的问题切成碎片 Token ，然后回答的时候也会根据 Token 一个个返回。

平均来说 1 个 Token = 0.75 个单词 = 1.5 - 2 个汉字。

Context

Context 翻译成中文的意思是：上下文，语境，背景，环境，它代表的是大模型每次处理任务时所接收到的信息总和。

大模型的本质就只是一个数学函数，你输入问题提问，它就输出答案，它并不像人一样，真的有记忆。

那它究竟是怎么记住之前的聊天内容的呢？

答案就是当我们提问时，除了当前的问题以外，还会连带历史对话一起发送给大模型，这里的历史对话是包含了我们对大模型的提问，以及大模型给我们的回复。

比如对话历史：

我：你好，我叫偶然。

大模型：你好，偶然！

我再次向大模型提问：我叫什么？大模型就会知道我叫偶然。

这种操作就会让我们误以为大模型是拥有记忆能力的，其实并不是，而是我们提问的时候连带历史对话一并发送给了大模型。

由于我们向大模型提问的时候会连带历史对话一并发送，所以我们在与大模型对话时，需要及时的总结内容。

这样会减少 Token 的消耗，同时也避免了上下文内容过多，导致大模型处理内容过多而造成的卡顿，回复时间长。

此外，Context 除了对话的内容以外，还会有一些工具，系统提示词也会被记录进来，在大模型执行我们给他的任务的时候一并使用，比如说一些天气工具啥的。

Context Window

了解了 Context 的底层逻辑之后，我们就要 Context Window 翻译过来就是上下文窗口，也就是 Context 能容纳的最大 Token 数量。

比如说 Context 为 1 万，那就代表这个模型最多能够处理 1 万个 Token 。

不过目前的大模型 Context Window 都是很大的，比如 GPT 5.4 的是 105 万，Gemini 3.1 pro 是 100 万，Claude Opus 4.6 是 100 万。

之前我们说过 Token 在 1.5 - 2 个汉字，那 100 万的话就是 150 万 - 200 万个汉字。

Prompt

Prompt 是中文提示词，是大模型接收的具体问题或者指令。

Prompt 的概念虽然简单，但我们需要注意的是它的质量，好的指令，它的回复才能符合你的预期。

一个好的 Prompt 应该是清晰的，具体的，明确的。

比如你向大模型提问：帮我写一首古诗，这样就不够具体，应该把故事的风格，字数，主题也加上。

其实说白了就是把话说清楚，让大模型更精准的理解你的意图是什么。

如果你不会写好的 prompt 那你就把你的大概意思描述出来，让 AI 帮你写 prompt 然后再根据个人情况进行微调就好了。

Tool

大模型有一个缺点，就是它无法感知外界环境。

比如你问它：今天广州的天气怎么样？

它会回答你：抱歉，我无法获取实时天气信息。我的知识库数据截止到 2025 年 10 月，无法提供当前的天气数据。

因为大模型本质就是一个文字接龙概率匹配的游戏，它的能力是根据训练的数据来预测下一个词。

它是真没有办法直接去查天气预报网站，拿到实时的天气数据。

这个时候我们就需要用到 Tool 了，Tool 翻译成中文就是工具的意思。

Tool 的本质是一个函数，你输入内容给它，它就会给你输出。

比如天气查询工具，它可能包含城市，日期这两个参数，当然还有其他的参数。

我们输入城市：广州，日期：2026年4月6日，这个工具就会去调用一些气象局的接口，然后输出天气：阴天，温度：24°~29°。

有了它，大模型就可以回答天气相关的问题了。

我们来看一下大模型调用工具完成任务的整个过程是怎么样的，我们先看一下这个过程中所涉及到的角色有那些。

这里有人可能会问，为什么需要平台这一角色，用户，大模型，天气查询工具这三个不就够了吗？

因为用户，大模型，天气工具没办法直接进行对话，所以就需要一个平台来打通用户，大模型，天气工具三者之间的信息沟通。

平台的本质就是一段代码。

当我们向大模型发送内容时，并不是直接就能发给大模型，而是先通过平台这一媒介来进行传达的。

比如我问：今天广州的天气怎么样？内容会先发送给平台，然后平台再发送给大模型，大模型收到后，请求平台调用"天气查询"工具。

你要记得开始说的，大模型只会接龙游戏。

平台收到请求之后，会去调用"天气查询工具"，然后天气查询工具查询了天气之后，就会返回天气查询的结果。

平台收到天气查询的结果之后，会给告诉大模型，大模型会调整相应的回答内容给到平台，然后平台再给到用户。

在整个过程中，每个角色都承担了不同的职责。

大模型：承担选择工具，归纳总结。

工具：实现查询天气。

平台：串联流程。

用户：给出指令。

到这里，我们更加了解了大模型完成任务的一个底层原理，接下来咱们继续。

MCP

刚才我们说了平台把工具列表传给模型，然后平台还要调用工具。

我们把工具接到平台里面，这样平台才知道那些工具可以使用，以及每个工具的用途，参数，调用方法。

但会有一个问题就是接入规范，每个平台都不一样。

比如你用的是 Chatgpt 你就要按照 OpenAI 的规范接入工具写一套接入代码。

比如你用的是 Claude 你就得按照 Anthropic 的规范接入规范，再写一套接入代码。

比如你用的是 Gemini ......

从上面的举例来看，一个工具，接入不同的平台，你需要写不同的规范，因为每个平台的标准不一样。

因此就出现了 MCP 这个统一的标准，让所有的平台都遵循这个标准。

这样工具的开发者，只需要写一次代码，就可以在所有的平台上使用了。

因此 MCP 就是统一接入规范。这就像手机的 Tpye c 接口一样，有统一的标准，大家就会很方便。

如果你想更了解 MCP 的内容，可以看我之前这篇：一文读懂什么是MCP，RAG，Agent，以及它们之间的关系（小白必备）

Agent

其实智能体去年的时候就非常的火了，从去年的 Coze ，N8N，Dify，再到今年爆火的通用智能体 Openclaw 小龙虾。

但其实到今天懂的人还是不多的，而且懂的人大概也只懂概念，不懂原理。

这里我给大家举一个例子吧。

比如我给大模型说：今天广州的天气怎么样？有没有下雨？如果下雨了的话，帮我看看附近有没有店铺可以买雨伞？

从过程来看，大模型并不是只调用一次工具，而是一步步思考当前的情况，然后决定下一步做什么。

这也是为什么过往我的 Agent 文章都是画流程图出来的，因为要梳理出 Agent 的一个执行情况，只有梳理了，才能更好的搭建出来。

我们称这种能够自主规划，自主调用，直到完成用户任务的系统为 Agent 。

目前市面上比较火的 Agent 产品，有 Claude Code，Codex，Gemini CLI 等等，比较经典的 Agent 构建模式有：ReAct，Plan And Execute。

Agent Skills

这个前几天刚写，直接看这篇吧：Agent Skills 从原理到实战一文彻底搞懂！

总结

我们一文讲清了 LLM，Token，Context，Context Window，Prompt，Tool，MCP，Agent 的底层运行方式逻辑。

LLM 词配对接龙游戏，Token 最小单元"词"单元，Context 模型上下文，Contxt Window 模型上下文窗口大小，Prompt 模型指令提示词，Tool 工具.....

希望看完本文，你能了解 AI 这些名词的所有底层运行逻辑，不懂可以在评论区留言。

本期的内容就到这里了，感谢你的耐心。

如果看完喜欢，请帮忙转发分享一下，你的点赞转发，就是我更新下去的动力