1. 什么是 Token?
Token 是 AI 模型处理信息时的最小离散单元(Atomic Unit)。
它本质上是将任意类型的数据(文本、图像、视频、音频等)切分成一小块一小块,并为每一块赋予一个可计算的编号,以便模型进行数学运算和预测。
核心定义:Token 不是「文字碎片」,而是「一切信息被切碎编号后的样子」。
2. Token 与二进制的区别
表格
| 维度 | Token | 二进制(0 和 1) |
|---|---|---|
| 本质 | 语义层面的信息单元 | 物理层面的存储信号 |
| 作用 | 让 AI 理解「内容含义」 | 让电路存储「有无电信号」 |
| 类比 | 文章里的字词 | 印刷用的墨水 |
| 人类可读性 | 可理解(如 "hello"、「你」) | 不可读(如 01001000) |
| 关系 | Token 最终会被编码成二进制存储和计算 | 二进制是 Token 的物理载体 |
两层转换流程:
plain
用户输入的文本/图像/视频
↓
【语义层】分词 → 拆成 Token(模型理解的内容单元)
↓
【物理层】编码 → 转成二进制(GPU/内存实际运算)
一句话总结:Token 是 AI 眼中的「信息积木」,二进制是电路里的「电流信号」。
3. Token 仅仅是文本碎片吗?
不是。
Token 的本质是离散化的信息单元,它适用于任何可以被 AI 模型处理的数据类型。
现代 AI(尤其是基于 Transformer 架构的模型)采用统一范式:
将任意数据切分为离散单元 → 预测「下一个单元应该是什么」
只要数据能被切成一块块、编上号,模型就能用同一套数学方法处理。
4. 不同 AI 模型中的 Token
表格
| 模型类型 | 原始数据 | Token 切分方式 | Token 实际形态 |
|---|---|---|---|
| 大语言模型(LLM) | 文本 | 按子词/字符拆分 | 语义子词片段,如 "你"、 "好"、 "unbeliev"、 "able" |
| 图像生成模型(如 DALL-E、Stable Diffusion) | 图片 | 将画面切分为空间块,再压缩编码 | 一个 16×16 像素的视觉 Patch ,或压缩后的图像特征码 |
| 视频生成模型(如 Sora) | 视频 | 将时空切分为时空立方体 | 包含多帧画面的Spacetime Patch(时空块) |
| 音频模型 | 声音波形 | 将声波切分为时间段 | 一段几毫秒的声波特征码 |
| 多模态模型(如 GPT-4V) | 文本 + 图像 | 分别切分后统一编码 | 文本 Token + 视觉 Token 混合序列 |
5. 为什么 Token 如此重要?
Token 直接决定了 AI 系统的三个核心维度:
5.1 上下文窗口(Context Window)
模型一次能处理的 Token 数量上限。例如:
-
128K tokens ≈ 10 万汉字 / 9.6 万英文单词
-
超出上限的内容会被截断,模型无法看到
5.2 计费与成本
API 调用通常按 输入 Token 数 + 输出 Token 数 计费:
-
同样的中文内容,不同模型的 Token 计数可能不同
-
中文通常 1 字 ≈ 1~2 个 Token;英文 1 词 ≈ 1.3 个 Token
5.3 模型性能与理解
-
Token 的切分方式直接影响模型对语义的理解
-
专业术语若被切得太碎,模型可能理解不准确
-
图像/视频的 Patch 大小影响生成质量和细节还原
6. 常见 Token 数量参考
表格
| 内容 | 大致 Token 数 |
|---|---|
| 1 个英文单词 | ~1.3 tokens |
| 1 个汉字 | ~1.5 tokens |
| 1 页 A4 文档(500 汉字) | ~750 tokens |
| 一部 10 万字小说 | ~15 万 tokens |
| 1 张 1024×1024 图片(视觉模型) | ~256 ~1024 个视觉 tokens |
| 1 分钟视频(视频模型) | 数千至数万个时空 tokens |
7. 核心结论
Token 是 AI 模型的通用信息货币。
无论是文字、图像、视频还是声音,最终都被转化为模型可计算的离散单元。理解 Token,就是理解现代 AI 如何处理和生成一切信息。