AI核心知识40——大语言模型之Token（简洁且通俗易懂版）

在大语言模型（LLM）的世界里，Token（词元） 是模型理解和处理文本的基本单位。

我们可以把它想象成大模型的"货币"或者"乐高积木块"。模型并不是像人类一样按"字"或"单词"来阅读，而是把文本拆解成一个个 Token 来处理。

为了方便我们更直观地理解，我们可以从以下几个方面来看：

Token 不一定等于一个完整的单词，也不一定等于一个汉字。它取决于模型使用的"分词规则"。

对于英文：
- 短的、常见的单词通常是一个 Token。
  - 例如：apple = 1 个 Token。
- 长的、复杂的单词会被拆分成多个 Token。
  - 例如：smartphones 可能会被拆成 smart + phones （2 个 Token）。
  - 例如：ing、ed 这样的后缀也可能单独成为 Token。
- 粗略换算： 在英文中，1000 个 Token 大约等于 750 个单词。
对于中文：
- 通常情况下，一个汉字 约等于 一个 Token（或者稍微多一点点）。
- 但在现代更先进的模型（如 GPT-4 或 Claude 3）中，常见词组（如"人工智能"）可能会被压缩成更少的 Token，效率变高了。
- 粗略换算： 1000 个 Token 大约等于 500~800 个汉字。

🔍 举个栗子： 如果你把句子 "I love AI" 喂给模型：

它看到的不是 "I", "love", "AI" 三个词。

它看到的是一串数字 ID，比如 [40, 3001, 152]，每一个数字代表一个 Token。

作为用户或开发者，你通常在两个场景下会非常关心 Token：

大模型 API 通常不按"次"收费，也不按"时间"收费，而是按 Token 数量收费。

每个大模型都有一个 "Max Token Limit"（最大 Token 限制），也就是我们常说的"上下文窗口"。

小贴士： 如果你在使用 API，想省钱或者让 AI 记住更多东西，尽量精简你的 Prompt（提示词），去除废话，就是为了节省 Token。