一文讲透 LLM,Context,mcp,Skills,Agent,Prompt

AI 圈有非常多的名词,token,LLM,context,prompt,mcp,skills,Agent.....

可能很多词你都听说过,但说实话你真的都懂它们到底是什么?底层逻辑是什么?作用是什么?

如果让你去面试 AI 的岗位,你是真的能讲清楚是什么?还是阿巴阿巴说不清?

就拿 Token 来说,很多人只知道 Token 消耗多 = 烧钱 但不知道它的原理,不信你就往下看。

本文我将从小白的角度,从最底层的东西,一层一层的往上讲,把这些概念全部串起来一文全部讲清楚。

看完本期内容,你将对 AI 底层逻辑的理解将有一个质的飞跃。

全文目录

LLM

LLM 的全称是 Large Language Model 翻译成中文就是大语言模型,简称:大模型。

目前市面上的大模型基本上都是基于 Transformer 这套架构设计出来的。

看起来很复杂,但实际上也不简单,看不懂是正常的,只需要知道大模型的底层引擎就是它就好了。

它最早是由 Google 在 2017 年提出来的,但把它带火的却是 OpenAI 。

OpenAI 可以说的上是目前大模型的鼻祖了,毕竟是它开创了大模型的热度先河,到今天 GPT 模型依旧是业界的标杆。

大模型的工作原理:

简单来说的话,它本质上就是一个文字接龙游戏,根据你前面说的话,一个字一个字猜下一个最可能出现的字。

比如:你输入:我今天去公园,看到了一只___

大模型要做的,就是猜下一个字****。

它在脑子里飞快算概率:

  • 小 → 很高

  • 猫 → 很高

  • 狗 → 很高

  • 山 → 很低

  • 飞机 → 极低

  • 桌子 → 几乎不可能

它选概率最高的,比如:

现在句子变成:我今天去公园,看到了一只小___

它继续猜下一个字:

  • 猫 → 最高

  • 狗 → 次之

  • 鸟 → 也还行

  • 象 → 不太对

输出:

句子变成:我今天去公园,看到了一只小猫___

再继续:

  • 。 → 概率最高

  • 在 → 也有可能

  • 跑 → 也有可能

它选句号,结束。

最终你看到:我今天去公园,看到了一只小猫。

但我们要知道的是,它是不会思考的,只会预测,你问它问题的时候,它不是在理解你、然后查资料、再进行推理回答。

而是在做一件事:在当前这句话后面,推测哪个字概率最高,就输出哪个**。**

那你可能会问了,我看现在好多 AI 模型都带有深度思考啊,你怎么说没有呢?

现在的模型看起来会深度思考,但其实不是它真的会思考,而是它学会了【模仿人类思考的步骤】。

Token

很多人只知道大模型干活烧 Token ,烧钱,但是不知道原理是什么。

如果你了解 Token 的在大模型中的运行逻辑原理,那你在使用大模型的时候,就能够极大的帮你省下不少的 Token (钱)

当我们提问题给大模型之后,大模型就会源源不断回复你一些词,但其实这是为了方便你理解,而简化的一种方式。

实际情况是:大模型本质上是一个庞大的数学函数,里面是以矩阵运算来进行的,它接收的是数字,输出的也是数字,它并不认识人类写的文字/英文,只认识数字(Token ID)。

因此在用户与大模型之间需要存在一个中间层作为翻译,这个中间层就叫做 Tokenizer 。

Tokenizer 它负责的是编码和解码两件事情。编码就是把文字变成数字,解码反过来就是把数字还原成文字。

比如当我向大模型输入:今天天气很好,我想去公园散步。

文字就会【经过】Tokenizer 把内容进行【切分】变成 Token,然后再把 Token【转化成】Token ID。

例子中这段内容就会经过 Tokenizer 先切出三个 Token 分别是今天,天气,公园,然后再把这三个 Token 进行编码 今天 → 编号 1832,天气 → 编号 5961,公园 → 编号 3047。

然后模型看到的就是【1832,5961,3047】,这就是编码的过程。

Token 在这里是文字,是大模型切出来的碎片,Token ID 是数字,这两者本质上是一个意思,只不过是换了种表达的方式。

刚才我们了解了我们向大模型【提问】时的编码过程,我们继续了解,大模型向我们【回答】时的解码过程。

大模型接收到 Token ID 之后,会根据概率较大情况进行匹配 Token ID ,也就是上一节说的 LLM 原理,返回一些 Token ID 给到中间层 Tokenizer 再翻译成中文给我们。

比如刚才的公园【编号 3047】大模型收到后,返还一个【编号3088】,然后 Tokenizer 收到编号后,将编号翻译成公园很大给我们。

一句话总结来说:Token 就是大模型眼里的 "文字最小单位",不是字,也不是词,是模型切出来的碎片。我们提问的时候它会根据我们的问题切成碎片 Token ,然后回答的时候也会根据 Token 一个个返回。

平均来说 1 个 Token = 0.75 个单词 = 1.5 - 2 个汉字。

Context

Context 翻译成中文的意思是:上下文,语境,背景,环境,它代表的是大模型每次处理任务时所接收到的信息总和。

大模型的本质就只是一个数学函数,你输入问题提问,它就输出答案,它并不像人一样,真的有记忆。

那它究竟是怎么记住之前的聊天内容的呢?

答案就是当我们提问时,除了当前的问题以外,还会连带历史对话一起发送给大模型,这里的历史对话是包含了我们对大模型的提问,以及大模型给我们的回复。

比如对话历史:

我:你好,我叫偶然。

大模型:你好,偶然!

我再次向大模型提问:我叫什么?大模型就会知道我叫偶然。

这种操作就会让我们误以为大模型是拥有记忆能力的,其实并不是,而是我们提问的时候连带历史对话一并发送给了大模型。

由于我们向大模型提问的时候会连带历史对话一并发送,所以我们在与大模型对话时,需要及时的总结内容。

这样会减少 Token 的消耗,同时也避免了上下文内容过多,导致大模型处理内容过多而造成的卡顿,回复时间长。

此外,Context 除了对话的内容以外,还会有一些工具,系统提示词也会被记录进来,在大模型执行我们给他的任务的时候一并使用,比如说一些天气工具啥的。

Context Window

了解了 Context 的底层逻辑之后,我们就要 Context Window 翻译过来就是上下文窗口,也就是 Context 能容纳的最大 Token 数量。

比如说 Context 为 1 万,那就代表这个模型最多能够处理 1 万个 Token 。

不过目前的大模型 Context Window 都是很大的,比如 GPT 5.4 的是 105 万,Gemini 3.1 pro 是 100 万,Claude Opus 4.6 是 100 万。

之前我们说过 Token 在 1.5 - 2 个汉字,那 100 万的话就是 150 万 - 200 万个汉字。

Prompt

Prompt 是中文提示词,是大模型接收的具体问题或者指令。

Prompt 的概念虽然简单,但我们需要注意的是它的质量,好的指令,它的回复才能符合你的预期。

一个好的 Prompt 应该是清晰的,具体的,明确的。

比如你向大模型提问:帮我写一首古诗,这样就不够具体,应该把故事的风格,字数,主题也加上。

其实说白了就是把话说清楚,让大模型更精准的理解你的意图是什么。

如果你不会写好的 prompt 那你就把你的大概意思描述出来,让 AI 帮你写 prompt 然后再根据个人情况进行微调就好了。

Tool

大模型有一个缺点,就是它无法感知外界环境。

比如你问它:今天广州的天气怎么样?

它会回答你:抱歉,我无法获取实时天气信息。我的知识库数据截止到 2025 年 10 月,无法提供当前的天气数据。

因为大模型本质就是一个文字接龙概率匹配的游戏,它的能力是根据训练的数据来预测下一个词。

它是真没有办法直接去查天气预报网站,拿到实时的天气数据。

这个时候我们就需要用到 Tool 了,Tool 翻译成中文就是工具的意思。

Tool 的本质是一个函数,你输入内容给它,它就会给你输出。

比如天气查询工具,它可能包含城市,日期这两个参数,当然还有其他的参数。

我们输入城市:广州,日期:2026年4月6日,这个工具就会去调用一些气象局的接口,然后输出天气:阴天,温度:24°~29°。

有了它,大模型就可以回答天气相关的问题了。

我们来看一下大模型调用工具完成任务的整个过程是怎么样的,我们先看一下这个过程中所涉及到的角色有那些。

这里有人可能会问,为什么需要平台这一角色,用户,大模型,天气查询工具这三个不就够了吗?

因为用户,大模型,天气工具没办法直接进行对话,所以就需要一个平台来打通用户,大模型,天气工具三者之间的信息沟通。

平台的本质就是一段代码。

当我们向大模型发送内容时,并不是直接就能发给大模型,而是先通过平台这一媒介来进行传达的。

比如我问:今天广州的天气怎么样?内容会先发送给平台,然后平台再发送给大模型,大模型收到后,请求平台调用"天气查询"工具。

你要记得开始说的,大模型只会接龙游戏。

平台收到请求之后,会去调用"天气查询工具",然后天气查询工具查询了天气之后,就会返回天气查询的结果。

平台收到天气查询的结果之后,会给告诉大模型,大模型会调整相应的回答内容给到平台,然后平台再给到用户。

在整个过程中,每个角色都承担了不同的职责。

大模型:承担选择工具,归纳总结。

工具:实现查询天气。

平台:串联流程。

用户:给出指令。

到这里,我们更加了解了大模型完成任务的一个底层原理,接下来咱们继续。

MCP

刚才我们说了平台把工具列表传给模型,然后平台还要调用工具。

我们把工具接到平台里面,这样平台才知道那些工具可以使用,以及每个工具的用途,参数,调用方法。

但会有一个问题就是接入规范,每个平台都不一样。

比如你用的是 Chatgpt 你就要按照 OpenAI 的规范接入工具写一套接入代码。

比如你用的是 Claude 你就得按照 Anthropic 的规范接入规范,再写一套接入代码。

比如你用的是 Gemini ......

从上面的举例来看,一个工具,接入不同的平台,你需要写不同的规范,因为每个平台的标准不一样。

因此就出现了 MCP 这个统一的标准,让所有的平台都遵循这个标准。

这样工具的开发者,只需要写一次代码,就可以在所有的平台上使用了。

因此 MCP 就是统一接入规范。这就像手机的 Tpye c 接口一样,有统一的标准,大家就会很方便。

如果你想更了解 MCP 的内容,可以看我之前这篇:一文读懂什么是MCP,RAG,Agent,以及它们之间的关系(小白必备)

Agent

其实智能体去年的时候就非常的火了,从去年的 Coze ,N8N,Dify,再到今年爆火的通用智能体 Openclaw 小龙虾。

但其实到今天懂的人还是不多的,而且懂的人大概也只懂概念,不懂原理。

这里我给大家举一个例子吧。

比如我给大模型说:今天广州的天气怎么样?有没有下雨?如果下雨了的话,帮我看看附近有没有店铺可以买雨伞?

从过程来看,大模型并不是只调用一次工具,而是一步步思考当前的情况,然后决定下一步做什么。

这也是为什么过往我的 Agent 文章都是画流程图出来的,因为要梳理出 Agent 的一个执行情况,只有梳理了,才能更好的搭建出来。

我们称这种能够自主规划,自主调用,直到完成用户任务的系统为 Agent 。

目前市面上比较火的 Agent 产品,有 Claude Code,Codex,Gemini CLI 等等,比较经典的 Agent 构建模式有:ReAct,Plan And Execute。

Agent Skills

这个前几天刚写,直接看这篇吧:Agent Skills 从原理到实战一文彻底搞懂!

总结

我们一文讲清了 LLM,Token,Context,Context Window,Prompt,Tool,MCP,Agent 的底层运行方式逻辑。

LLM 词配对接龙游戏,Token 最小单元"词"单元,Context 模型上下文,Contxt Window 模型上下文窗口大小,Prompt 模型指令提示词,Tool 工具.....

希望看完本文,你能了解 AI 这些名词的所有底层运行逻辑,不懂可以在评论区留言。

本期的内容就到这里了,感谢你的耐心。

如果看完喜欢,请帮忙转发分享一下,你的点赞转发,就是我更新下去的动力

相关推荐
智者知已应修善业3 小时前
【51单片机1,左边4个LED灯先闪烁2次后,右边4个LED灯再闪烁2次:2,接着所用灯一起闪烁3次,接着重复步骤1,如此循环。】2023-5-19
c++·经验分享·笔记·算法·51单片机
宝宝单机sop3 小时前
Python资源合集
经验分享
网上邻居YY3 小时前
深度学习DL 之 安装PyTorch·GPU版、CUDA(本人Anaconda、Python、PyCharm已提前安装好)
pytorch·经验分享·python·深度学习·pycharm·学习方法
恒拓高科WorkPlus3 小时前
局域网视频软件BeeWorks Meet
经验分享
恒拓高科WorkPlus3 小时前
BeeWorks:打造安全可控的企业级内网即时通讯平台
经验分享
SccTsAxR15 小时前
算法基石:手撕离散化、递归与分治
c++·经验分享·笔记·算法
其实秋天的枫16 小时前
2026年新大纲普通话考试真题题库50套(PDF电子版)
经验分享·pdf
优化控制仿真模型19 小时前
2026年新大纲普通话考试真题题库50套(PDF电子版)
经验分享·pdf
中屹指纹浏览器20 小时前
2026指纹浏览器技术架构深度解析:从隔离原理到性能优化的全链路实践
经验分享·笔记