从LLM到Agent的核心概念

你是不是经常听人聊AI时蹦出这些词：LLM、Token、Context、Prompt、Tool、MCP、Agent？听着好像都认识，但真要问"这到底是啥"，又有点懵。别急，今天咱们就用工程师的大白话，把这些词一个个拆开揉碎，讲清楚它们到底是啥、有啥用、又是怎么串起来的。

LLM：(大模型)

LLM的来历 ：2017年Transformer架构诞生，OpenAI将其发扬光大；
历程：从GPT-3.5破圈，到GPT-4飞跃，再到百家争鸣；
用途：从聊天起步，正在成为一切数字交互的"万能接口"。

LLM（大语言模型）通俗来讲，就是一个极其擅长"文字接龙"的超级智能程序。

你可以把它想象成一个玩接龙游戏的高手：

它只做一件事：给你一句话，它根据这句话，猜出下一个最可能出现的字或词。
它一个字一个字地"吐"出来：它先猜第一个字，然后把这个字加回原来的句子里，再猜下一个字。就这样一个字一个字地往外蹦，直到它觉得一句话说完整了。
它不懂文字，只懂数字：在它内部，所有的文字都会被转换成它认识的数字（也就是"Token"），运算完再把数字变回文字告诉你。

举个例子 ：

你问它"这篇文章怎么样？"，它不会一次性想好"特别棒"三个字。它的内部流程是：

先猜出第一个字："特"
然后把"特"加回问题，变成"这个视频怎么样特"，再猜出："别"
再把"别"加进去，变成"这个视频怎么样特别"，再猜出："棒"
最后发现话说完了，输出"特别棒"。

你平时用的像GPT、Claude、豆包、文心一言这些产品，底层都是这种"接龙"模型。它们之所以显得"聪明"，是因为它们用海量的数据训练过，猜下一个字的"经验"极其丰富，所以接出来的话看起来像是有逻辑、有思考一样。

简单理解，就是大模型就像一个读过全世界所有书、但只会玩"文字接龙"的超级学霸------它每时每刻只关心"下一个字该接什么"，但因为接了几万亿次，它的"语感"好到让人觉得它真的在思考，当我们给它装上"工具"和"长记忆"后，它就从只会玩接龙游戏的玩家变成了能帮忙干活、做决策的搭档。

Token：(大模型处理数据的最基本单元)

Token 通俗来讲，就是大模型"眼中的文字"------它是模型处理文本时最小的"积木块"。

1. 它不是"字"，也不是"词"，而是"模型自己定义的积木"

我们看文字，是一个字一个字看的。

但大模型看文字，是先把一段话切成一小块一小块 ，每一块就叫一个 Token。

有时候一个 Token 就是一个汉字，比如"我""你""好"。
有时候一个 Token 是一个词，比如"苹果""电脑"。
但更多时候，一个词会被切成多个 Token。
比如"衣服撑"这个词，在大模型眼里可能是两个 Token："衣服"和"撑"。
再比如"Helpful"这个英文单词，可能会被切成"Help"和"ful"两个 Token。

一句话总结：Token 是模型自己学会的一套"切分规则"，每个 Token 就是它一次能"看"或"吐"的最小单位。

在线查看token 工具: console.volcengine.com/ark/region:...

2. 为什么要有 Token？------因为模型只认数字

大模型内部全是数学运算，它不认识"你""我""他"，只认识数字。

所以需要有一个"翻译官"，把文字变成数字，这个数字就是 Token ID。

流程是这样的：

切分：把你说的话切成一个个 Token。
映射：每个 Token 对应一个唯一的编号（Token ID）。
运算：模型只处理这些数字。
还原：模型吐出一个数字（Token ID），再把它变回文字。

举个例子：

你问"这篇文章到底怎么样？"

它可能被切成 3 个 Token："这篇文章" "到底" "怎么样"。

每个 Token 都有一个数字编号，模型看到的其实是 [1234, 5678, 9011,] 这样一串数字。

3. Token 和字数有什么关系？

这是一个很实用的知识点：

英文：平均 1 个 Token ≈ 0.75 个单词。比如"hello"是一个 Token，"helpful"是两个 Token。
中文：平均 1 个 Token ≈ 1.5 到 2 个汉字。一个常见汉字通常是一个 Token，但生僻字可能需要 2~3 个 Token。

为什么你要关心这个？

因为所有大模型产品都是按 Token 数量 计费的。

你提问时消耗 Token，模型回答时也消耗 Token。一段 1000 字的中文，大概会消耗 1500~2000 个 Token。

4. Token 决定了"它能记住多少"------上下文窗口

每个大模型都有一个"上下文窗口"（Context Window），它的大小就是用 Token 数量 衡量的。

比如一个模型说"上下文窗口是 100 万 Token"，意思就是它一次最多能处理 100 万个 Token 的内容。
100 万 Token 大约相当于 150 万个汉字，或者《水浒传》整本那么多。

你每次和大模型聊天，它之所以能"记住"前面说的话，就是因为程序会把整个对话历史（用 Token 表示）一直塞给它。如果对话太长，超出了窗口，最早的对话就会被"挤出去"，模型就"忘"了。

5. 用一张图帮你记住 Token

中间那一步"转成数字"之后，模型处理的就不再是"文字"，而是"数字积木"。它所有的"思考"，其实都是在计算"下一个数字积木应该是什么"。

Token 就是大模型"看"和"写"文字时使用的最小积木块。它既不是字也不是词，而是模型自己学会的一种切分方式。你用大模型花的每一分钱、它能记住的每一句话，都是用 Token 来衡量的。

下次你再看到"这个模型有 100 万 Token 上下文"，你就知道：它能一次吞下整本《水浒传》，然后跟你聊里面的任何细节。

Context: (大模型每次处理任务时接收到的信息总和)

Context window: (大模型的 Context 最多能够存储的 Token 量)

Prompt: (用户或系统当前给大模型下达的具体指令或问题)

Tool: (大模型用来感知和影响外部环境的函数)

MCP: (统一了工具接入格式的标准协议)

Agent: (能自主规划和调用工具、直至解决用户问题的程序)

Agent Skill: (给 Agent 看的说明文档)

英文术语	中文名称	核心定义
LLM	大模型	大模型本身（Large Language Model）
Token	词元/令牌	大模型处理数据的最基本单元
Context	上下文	大模型每次处理任务时接收到的信息总和
Context Window	上下文窗口	大模型的 Context 最多能够存储的 Token 量
Prompt	提示词	用户或系统当前给大模型下达的具体指令或问题
Tool	工具	大模型用来感知和影响外部环境的函数
MCP	模型上下文协议	统一了工具接入格式的标准协议
Agent	智能体	能自主规划和调用工具、直至解决用户问题的程序
Agent Skill	智能体技能	给 Agent 看的说明文档

简单说明：

LLM (大模型) ：那个超级聪明的"大脑"。
Token：大脑认识的最小"积木块"（文字切分后的单位）。
Context (上下文) ：大脑此刻"脑子里装着的所有信息"（包括你的提问和之前的聊天记录）。
Context Window (上下文窗口) ：大脑的"短期记忆容量上限"（最多能装多少 Token）。
Prompt (提示词) ：你给大脑出的"题目"或"指令"。
Tool (工具) ：大脑的"手和眼"（比如联网搜索、计算器，帮它看世界和做事情）。
MCP：工具的"通用插座标准"（让所有工具都能插在大脑上用）。
Agent (智能体) ：一个有"大脑"且有"手脚"的完整办事员（它不只聊天，还能帮你把事办成）。
Agent Skill (技能) ：办事员手里的"操作说明书"（告诉它怎么用工具）。