26. AI-大语言模型-Token

文章目录


前言

Token

Token是模型处理信息的基本单位,相当于"信息颗粒"。它不固定等于字或词,而是根据不同场景有所变化:自然语言中可以是字、词片段或标点;基因组学中表现为碱基或k-mer;蛋白质组学中是氨基酸或功能区域;图像处理中是图像小块;语音处理中则是时间帧或音素。简单说,Token就是现实信息进入模型前被切分的小块。。


一、背景

刚接触大模型时,很多人都会反复看到一个词:Token。比如:

  • 这个模型支持128KToken

  • 这段内容会消耗多少Token

  • 输入太长,超过Token限制了

很多人第一反应是:Token不就是字吗?或者不就是词吗?其实都不完全对。更通俗一点说,Token就是模型处理信息时,先切出来的一个个小单位 。具体的小单位是什么方式,与切词方法有关,后续我们会说到这个问题。

模型不会像人一样直接看懂一整段话、一整张图或者一整条序列,它通常要先把输入拆成一块一块,再去处理。这些被拆出来的一块一块,就是Token。

你可以把Token理解成:模型读东西时的基本颗粒。注意,是基本颗粒,不是固定等于一个字,也不是固定等于一个词。

二、在自然语言里,Token是什么?

这是大家最常见的场景。比如这句话:

text 复制代码
今天天气很好。

在我们人眼里,这是一句完整的话。但在模型那里,它不会直接把整句话当一个整体处理,而是会先切开。可能会切成:

text 复制代码
今天
天气
很好
。

也可能切成:

text 复制代码
今
天
天气
很
好
。

不同模型,切法可能不一样。所以你会发现:

Token不等于字。因为今天可能是1个Token,也可能是2个。很好也可能被当成一个整体。再看英文:

text 复制代码
Large Language Model is useful.

有的模型可能切成:

text 复制代码
Large
Language
Model
is
useful
.

也有的模型可能切成:

text 复制代码
Large Language Model
is
use
ful
.

所以,Token也不等于单词。因为一个英文单词,有时是1个Token,有时会被拆成几段。

三、为什么自然语言要这样切?

因为模型本质上是在做计算。它不能直接看懂句子,而是要先把文本拆成适合计算的单位,再把这些单位转成数字、向量,最后送进模型。所以在自然语言里,Token可以是:

  • 一个字

  • 一个词的一部分

  • 一个完整的词

  • 一个短语

  • 一个标点符号

  • 一个数字

  • 一个特殊符号

比如:

text 复制代码
2026年,AI很火!

可能会切成:

text 复制代码
2026
年
,
AI
很
火
!

你会发现,连标点符号都可能单独算Token。在不同研究领域中,Token的定义和形式往往并不相同。比如在基因组学中,Token可以是碱基或k-mer;在蛋白组学中,Token可以是氨基酸或序列片段;在图像任务中,Token则常常对应一块图像区域。

四、在基因组学里,Token可以是什么?

基因组学里,最基本的序列通常是DNA序列,比如:

text 复制代码
ATCGGCTA

如果把这个序列交给模型处理,也需要先切分成Token。

  1. 最简单的切法:单个碱基做Token。

比如:

text 复制代码
A
T
C
G
G
C
T
A

这时候,每个碱基都是一个Token。这是最直观的做法,因为DNA的基本字母本来就只有4个,字母N通常不参与模型训练:

text 复制代码
A
T
C
G
  1. 另一种切法:k-mer做Token

比如把连续3个碱基当成一个单位,也就是常说的3-mer。对于:

text 复制代码
ATCGGCTA

可以切成:

text 复制代码
ATC
TCG
CGG
GGC
GCT
CTA

这时候,一个Token就不再是单个字母,而是一小段局部模式。这样做的好处是,模型不只看到单个碱基,还能更容易捕捉局部序列特征。在更复杂的建模里,Token甚至可以不是简单的字母串,而是:

  • 启动子区域

  • 外显子

  • 内含子

  • 某类 motif

  • 某段调控元件

也就是说,在基因组学里,Token可以有不同层级:

  • 最细:单个碱基

  • 中间:k-mer

  • 更高层:有生物学意义的功能片段

五、在蛋白质组学里,Token可以是什么?

蛋白质序列和自然语言也有点像。因为蛋白质本质上也是一串序列,只不过"字母"不是汉字或英文,而是氨基酸。比如一段蛋白序列:

text 复制代码
MKTFFVLLL

这里每个字母都代表一个氨基酸。最常见的切法:单个氨基酸做Token

比如:

text 复制代码
M
K
T
F
F
V
L
L
L

这时候,一个氨基酸就是一个Token。也可以用片段做Token,比如把连续几个氨基酸组成一个片段:

text 复制代码
MKT
TFF
FVL
LLL

或者用滑动窗口形成更细的片段。还可以用结构或功能单元做Token,如果模型更复杂,Token也可能不是简单序列,而是更高层的蛋白质单元,例如:

  • 某个motif

  • 某个二级结构片段

  • 某个功能域片段

所以在蛋白质组学里,Token也不一定固定。它可以是:

  • 单个氨基酸

  • 若干氨基酸片段

  • 结构单元

  • 功能区域

六、在图片处理中,Token又是什么?

很多人一听Token,会以为这只是文字里的概念。其实图像模型里也有Token。因为模型处理图片时,也不会像人一样直接看整张图 。它通常也会先拆。最常见的做法:把图片切成小块,比如一张图片大小是224×224。模型可以把它切成很多个16×16的小方块。这样整张图就变成一堆小块:

  • 第1块

  • 第2块

  • 第3块

  • ......

每一个小块,就可以看成一个Token。这就是视觉Transformer里很常见的思路。举个例子:你有一张猫的图片。在人眼里,这是一只猫。但模型不会先有猫这个概念,它会先看到:

  • 左上角一块颜色纹理

  • 中间一块耳朵区域

  • 下方一块身体区域

  • 背景的一块地板区域

这些图像块经过编码后,就变成视觉Token。所以在图片处理中,Token常常是:

  • 一小块图像patch

  • 或者某种压缩后的视觉特征块

七、在语音处理中,Token可以是什么?

语音也是一样。比如一句话的语音波形,对人来说是连续的声音;但模型一般不会直接整段吞下去。它可能先切成:

  • 很短的时间帧

  • 声学特征片段

  • 音素

  • 子词单元

举个简单例子:一句你好,在人耳里就是两个字。但对语音模型来说,可能先变成一串短时间片段的声学特征,再进一步映射成语音Token。所以在语音场景下,Token可以是:

  • 时间帧

  • 音素

  • 离散语音单元

  • 压缩后的声学编码片段

模型需要把复杂输入,变成一串可以计算的基本单位。Token就是这个桥梁。你可以把它理解成:现实世界的信息,进入模型之前,先被切成一个个可处理的小块。这些小块就是Token。把模型想成一个流水线工厂

  • 一整篇文章进来,太大了,不方便加工

  • 一整张图片进来,也太大了,不方便加工

  • 一整条基因序列进来,同样太长了

所以工厂第一步不是直接生产,而是先分拣、切块 。切成适合机器处理的一小块一小块之后,再进入后面的加工流程。这些小块,就是Token。Token这个词听起来很技术,但本质并不复杂。你只要记住下面这几句就够了:

1. Token是模型处理信息时的基本单位。
2. 它不等于字,也不等于词,而是模型自己的切分颗粒。
3. 不同场景下,Token可以完全不同。

比如:

  • 在自然语言里,Token可以是字、词的一部分、词、标点

  • 在基因组学里,Token可以是碱基、k-mer、功能片段

  • 在蛋白质组学里,Token可以是氨基酸、序列片段、结构单元

  • 在图片处理中,Token可以是一块块图像patch

  • 在语音处理中,Token可以是时间帧、音素或语音单元


本文的引用仅限自我学习如有侵权,请联系作者删除。
参考知识
什么是Token?一篇讲清楚


相关推荐
Agent产品评测局2 小时前
智能体在药物发现阶段如何辅助完成靶点专利覆盖的自动识别?2026药研AI Agent全景盘点与自动化选型指南
java·人工智能·ai·chatgpt·自动化
OpenVINO 中文社区2 小时前
基于LightX2V优化的混元Video模型在英特尔 AI PC 上的自动化适配实践
人工智能·英特尔
志栋智能2 小时前
超自动化安全:让安全防护从“有效”到“高效”
运维·网络·人工智能·安全·自动化
新新学长搞科研2 小时前
【高届数机械工程会议】第十二届机械工程、材料和自动化技术国际学术会议(MMEAT 2026)
运维·人工智能·算法·机器学习·自动化·软件工程·激光
Chengbei112 小时前
全新开源 Burp AI 扫描插件、支持 17 类 Web检测,自带 WAF 绕过,一键自动化挖掘并智能验证
前端·人工智能·自动化
Cho1yon2 小时前
【AI Agent 第五期:使用AI实现车载智能座舱屏幕异常检测(黑屏、闪屏、花屏、卡顿):从零到一的实战方案】
人工智能·车载系统
Fabarta技术团队2 小时前
枫清科技葛爽:效率优先,业务同频,构筑AI企业的系统组织力
人工智能·科技
IT技术范2 小时前
告别“答非所问”!蓝凌知识管理+智能BPM,把AI搜问准确率拉升至行业新高
人工智能
迦南的迦 亚索的索2 小时前
AI_05_基于Prompt工程的金融行业项目
人工智能·金融·prompt