Token 知识文档, 什么是 Token？

Token 是 AI 模型处理信息时的最小离散单元（Atomic Unit）。

它本质上是将任意类型的数据（文本、图像、视频、音频等）切分成一小块一小块，并为每一块赋予一个可计算的编号，以便模型进行数学运算和预测。

核心定义：Token 不是「文字碎片」，而是「一切信息被切碎编号后的样子」。

表格

两层转换流程：

plain

复制代码

用户输入的文本/图像/视频
    ↓
【语义层】分词 → 拆成 Token（模型理解的内容单元）
    ↓
【物理层】编码 → 转成二进制（GPU/内存实际运算）

一句话总结：Token 是 AI 眼中的「信息积木」，二进制是电路里的「电流信号」。

不是。

Token 的本质是离散化的信息单元，它适用于任何可以被 AI 模型处理的数据类型。

现代 AI（尤其是基于 Transformer 架构的模型）采用统一范式：

将任意数据切分为离散单元 → 预测「下一个单元应该是什么」

只要数据能被切成一块块、编上号，模型就能用同一套数学方法处理。

表格

模型类型	原始数据	Token 切分方式	Token 实际形态
大语言模型（LLM）	文本	按子词/字符拆分	语义子词片段，如 "你"、 "好"、 "unbeliev"、 "able"
图像生成模型（如 DALL-E、Stable Diffusion）	图片	将画面切分为空间块，再压缩编码	一个 16×16 像素的视觉 Patch ，或压缩后的图像特征码
视频生成模型（如 Sora）	视频	将时空切分为时空立方体	包含多帧画面的Spacetime Patch（时空块）
音频模型	声音波形	将声波切分为时间段	一段几毫秒的声波特征码
多模态模型（如 GPT-4V）	文本 + 图像	分别切分后统一编码	文本 Token + 视觉 Token 混合序列

Token 直接决定了 AI 系统的三个核心维度：

模型一次能处理的 Token 数量上限。例如：

API 调用通常按 输入 Token 数 + 输出 Token 数 计费：

表格

Token 是 AI 模型的通用信息货币。

无论是文字、图像、视频还是声音，最终都被转化为模型可计算的离散单元。理解 Token，就是理解现代 AI 如何处理和生成一切信息。