Token 知识文档, 什么是 Token?

1. 什么是 Token?

Token 是 AI 模型处理信息时的最小离散单元(Atomic Unit)。

它本质上是将任意类型的数据(文本、图像、视频、音频等)切分成一小块一小块,并为每一块赋予一个可计算的编号,以便模型进行数学运算和预测。

核心定义:Token 不是「文字碎片」,而是「一切信息被切碎编号后的样子」。


2. Token 与二进制的区别

表格

维度 Token 二进制(0 和 1)
本质 语义层面的信息单元 物理层面的存储信号
作用 让 AI 理解「内容含义」 让电路存储「有无电信号」
类比 文章里的字词 印刷用的墨水
人类可读性 可理解(如 "hello"、「你」) 不可读(如 01001000
关系 Token 最终会被编码成二进制存储和计算 二进制是 Token 的物理载体

两层转换流程

plain

复制代码
用户输入的文本/图像/视频
    ↓
【语义层】分词 → 拆成 Token(模型理解的内容单元)
    ↓
【物理层】编码 → 转成二进制(GPU/内存实际运算)

一句话总结:Token 是 AI 眼中的「信息积木」,二进制是电路里的「电流信号」。


3. Token 仅仅是文本碎片吗?

不是。

Token 的本质是离散化的信息单元,它适用于任何可以被 AI 模型处理的数据类型。

现代 AI(尤其是基于 Transformer 架构的模型)采用统一范式:

将任意数据切分为离散单元 → 预测「下一个单元应该是什么」

只要数据能被切成一块块、编上号,模型就能用同一套数学方法处理。


4. 不同 AI 模型中的 Token

表格

模型类型 原始数据 Token 切分方式 Token 实际形态
大语言模型(LLM) 文本 按子词/字符拆分 语义子词片段,如 "你"、 "好"、 "unbeliev"、 "able"
图像生成模型(如 DALL-E、Stable Diffusion) 图片 将画面切分为空间块,再压缩编码 一个 16×16 像素的视觉 Patch ,或压缩后的图像特征码
视频生成模型(如 Sora) 视频 将时空切分为时空立方体 包含多帧画面的Spacetime Patch(时空块)
音频模型 声音波形 将声波切分为时间段 一段几毫秒的声波特征码
多模态模型(如 GPT-4V) 文本 + 图像 分别切分后统一编码 文本 Token + 视觉 Token 混合序列

5. 为什么 Token 如此重要?

Token 直接决定了 AI 系统的三个核心维度:

5.1 上下文窗口(Context Window)

模型一次能处理的 Token 数量上限。例如:

  • 128K tokens ≈ 10 万汉字 / 9.6 万英文单词

  • 超出上限的内容会被截断,模型无法看到

5.2 计费与成本

API 调用通常按 输入 Token 数 + 输出 Token 数 计费:

  • 同样的中文内容,不同模型的 Token 计数可能不同

  • 中文通常 1 字 ≈ 1~2 个 Token;英文 1 词 ≈ 1.3 个 Token

5.3 模型性能与理解

  • Token 的切分方式直接影响模型对语义的理解

  • 专业术语若被切得太碎,模型可能理解不准确

  • 图像/视频的 Patch 大小影响生成质量和细节还原


6. 常见 Token 数量参考

表格

内容 大致 Token 数
1 个英文单词 ~1.3 tokens
1 个汉字 ~1.5 tokens
1 页 A4 文档(500 汉字) ~750 tokens
一部 10 万字小说 ~15 万 tokens
1 张 1024×1024 图片(视觉模型) ~256 ~1024 个视觉 tokens
1 分钟视频(视频模型) 数千至数万个时空 tokens

7. 核心结论

Token 是 AI 模型的通用信息货币。

无论是文字、图像、视频还是声音,最终都被转化为模型可计算的离散单元。理解 Token,就是理解现代 AI 如何处理和生成一切信息。

相关推荐
火山引擎开发者社区5 小时前
火山AgentPlan/CodingPlan同步上线GLM-5.2
人工智能
冬奇Lab6 小时前
Skill 系列(05):Skill 工作流串联——4 种模式实测,并发加速 1.5x
人工智能·开源
冬奇Lab6 小时前
每日一个开源项目(第141篇):hiring-agent - HackerRank 开源了他们的简历评分系统,你的简历能得几分?
人工智能·面试·开源
甲维斯7 小时前
又升级咯!坦克大战2026,科技与复古并存!
前端·人工智能·游戏开发
姗姗来迟了9 小时前
用React Hook封装AI对话状态
人工智能
Goodbye9 小时前
从 Token 到 Embedding:LLM 核心基础深度解析
javascript·人工智能
阿瑞IT9 小时前
AI Agent 在甘特计划变更场景中的动态响应工程实践
人工智能
用户938515635079 小时前
工具调用背后:LLM 如何突破“缸中大脑”,操控真实世界?
javascript·人工智能