大模型为啥按Tokens收费?Tokens究竟是什么?直到我理解了Token和分词器,我才懂Transformer

你有没有这种感觉?看了很多Transformer、LLM的文章,却总觉得云里雾里?今天我们来聊聊大型语言模型(LLM)中的一个核心概念------Token

直到我彻底掌握了"Token"和"分词器"的概念,这成为我理解Transformer架构的首次突破性领悟,或许也是我研究大模型时唯一无需反复琢磨就能完全领悟的知识点。

尽管这些概念显得"初级",但它们构成了所有大模型进行推理、训练和性能优化的根本基础。无论是deepseek还是claude,Token都是实现文本理解与生成的核心机制。

要理解大模型为啥按Tokens收费这个问题,我们先得知道到底什么是所谓的tokens?

"Tokens"常见释义为"代币;令牌;标记;符号" 。在计算机领域,它常指用于标识或验证的一种机制;在加密货币领域,通常指各种 数字代币;

而在语言学中,"Tokens"指语言符号,在语料库语言学里,"tokens"是"形符",即文本中出现的所有词的个数。

更多AI大模型学习视频及资源,都在智泊AI

无论你是刚入门的大模型爱好者,还是在实践中苦于 Token 限制的开发者,这篇文章都会帮你从根本上理清思路。

一、Token是什么?

Token,本质上就是文本处理的基本单元。

想象你面前有一本写满文字的书,这些文字在LLM(大语言模型)中被分解为Token:可能是完整的词语(如"苹果"或"你好")

也可能是词语片段(如"unhappiness"拆分为"un"和"happiness"),甚至单个字母(如"apple"拆分为"a"、"p"、"p"、"l"、"e")。

这种灵活性的根源在于语言特性差异。英语等单词边界清晰的语言适合用完整单词作为Token,而中文这类无显式分隔的语言则需要更细粒度的拆分策略。

在自然语言处理技术领域,Tokens(词元)作为文本处理的基本单元,可直观视为模型解析文本的‌最小语义片段‌。

其划分逻辑由模型的分词策略决定:当采用字节对编码(BPE)等子词分词方法时,部分汉字或词汇可能被拆分为更细粒度的子单元,导致占用更多Token。例如:

腾讯混元大模型:1Token ≈ 1.8个汉字

通义千问:1Token ≈ 1个汉字

英文场景:1Token通常对应3-4个字母或一个完整单词

这一技术过程称为‌Tokenization‌,即通过将连续文本转化为离散的模型可处理单元,其效率直接关联计算资源消耗与输出质量。

举例

在中文中:一个汉字通常为1个Token,但组合词可能拆分,比方说 "人工智能"可能拆为"人工"+"智能"。

而在英文中:一个单词可能对应1个Token,如 "apple",有可能是多个Token,如"ChatGPT" 拆为 "Chat" + "G" + "PT"。

理解了Tokens是啥了以后,我们就好理解为什么按tokens收费是比较合理的原因了。

二、分词器

这些Token究竟是如何从原始文本中提取出来的?‌ 答案在于分词器(Tokenizer)。它就像一位语言解码员,负责将人类输入的句子转化为AI可识别的Token序列。

分词器有几种常见的"翻译"方法:

字典分词:就像查字典,把句子里的词跟一个预先准备好的词表对上号。

BPE(Byte-Pair Encoding):从字符开始,把最常出现的字符组合起来,慢慢拼成更大的词块。

SentencePiece:有点像BPE,但更灵活,不管什么语言都能用。

WordPiece:BERT模型爱用的方式,也是把词拆成小块再组合。

举个例子:拿"Hello, I'm an AI assistant."这句话来说,用BPE分词器可能会把它拆成这样:['Hello', ',', ' I', "'m", ' an', ' AI', ' assistant', '.']。每个小块就是一个Token,AI就靠这些小块理解整句话。

三、中文的分词

中文分词面临独特挑战,因其缺乏类似英语的空格分隔机制。大型语言模型(LLM)如何应对这一难题?主要采用以下三种策略:

‌字符级分词‌

将每个汉字视为独立Token,如"你好"拆分为"[你, 好]"。该方案实现简单,但难以理解词汇语义。

‌词汇级分词‌

借助词典或统计模型进行切分,例如"长沙欢迎你"处理为"[长沙, 欢迎, 你]"。其效果高度依赖分词工具的质量。

‌子词级分词‌

采用类似BPE(字节对编码)的技术,组合高频字符序列。如"我爱长沙"可能拆分为"[我, 爱, 长, 沙]"或更大单元。

在LLM实践中,子词分词成为主流方案,因其能平衡处理生僻词(out-of-vocabulary words)的效率和准确性。

以LLaMA系列为例,其通过子词分词器处理中文文本。

虽然该方法在应对新词和计算效率上表现优异,但仍可能误判某些复合词结构,例如将"的事"错误合并而非识别为"事物"(To Merge or Not to Merge)。

四、特殊Token------文字里的"交通标志"

除了普通的Token,LLM里还有一些"特殊Token",它们就像路上的交通标志,告诉模型一些特别的信息。常见的几种有:

CLS\]:表示一段文字的开头。 \[SEP\]:用来分开不同的句子。 \[PAD\]:如果句子长度不够,就用这个填充一下。 \[UNK\]:遇到不认识的词,就用这个代替。 \[MASK\]:有些模型(比如BERT)用这个来玩"填空游戏",训练时遮住一部分词。 这些特殊Token就像给AI指路的小助手,让它知道句子的结构和重点。 ![图片](https://oss.xyyzone.com/jishuzhan/article/1983797289194946562/7bd9872a7f664367c812d771a02eeffe.webp) **五、Token计数------为什么数量这么重要?** 你可能会疑惑,Token数量多些少些能有多大影响?‌实际影响非常显著!‌ 在大型语言模型(LLM)中,Token数量直接决定了运算成本和耗时。 以GPT-3为例,它采用BPE分词技术,通常一个英文单词会被拆分为约1.3个Token。 假设你输入100个Token,AI返回50个Token,累计消耗便是150个Token。多数AI服务商按Token总量计费,Token消耗量越高,费用支出就越明显。 比如:向AI提问"现在几点了?"可能仅需5个Token,但若提交一整份研究报告,Token数量可能突破上千。因此,使用AI服务时,‌实时关注Token消耗量‌是控制成本的关键细节。 以下是一个Token计数的示例: ![图片](https://oss.xyyzone.com/jishuzhan/article/1983797289194946562/8d9e05bce49055ae2baa9fd772068c43.webp) **六、LLaMA系列模型的分词器演进** 现在我们来看看具体的模型。LLaMA系列是Meta(前Facebook AI)开发的大型语言模型,目前已经发布了Llama 2和Llama 3。我们来看看它们的分词器是怎么演进的。 **1、Llama 2的分词器:BPE和SentencePiece** Llama 2‌采用‌字节对编码(Byte Pair Encoding, BPE)‌作为其分词算法的核心。BPE作为一种无监督学习方法,通过统计语料中高频字符对的迭代合并来构建词汇表。 具体实现上,该分词器以字符为初始单元,逐次识别并合并频率最高的字符对,将新生成的组合纳入词汇表,此过程持续至词汇表规模达到预设值(约32,000个Token)或无法进一步合并为止(Understanding the Llama2 Tokenizer)。 此外,‌Llama 2‌的分词系统整合了‌SentencePiece‌框架。该无监督文本编码器通过统一接口支持BPE、WordPiece及Unigram等多种算法,其突出优势体现在跨语言适应性上。 由于直接处理原始文本且无需依赖空格等语言特定特征,SentencePiece能够实现对多领域和多语言场景的灵活兼容。 **2、Llama 3的分词器:更大的词汇量和Tiktoken** Llama 3的分词器实现了重要改进‌。其词汇规模从Llama 2的32,000个令牌扩展至128,256个令牌,显著增强了文本编码的粒度。 这一提升不仅优化了输入输出的编码精度,还通过更高效的令牌分配改善了整体任务表现 (Llama 3 Tokenizer)。 ‌技术选型方面‌,Llama 3采用Tiktoken替代了原有的SentencePiece方案。 作为OpenAI推出的新一代分词工具,Tiktoken在语言适应性和处理效率上具有突出优势,其多语言兼容性及与GPT系列模型的统一性可能是Llama 3转向该方案的关键考量 (In-depth understanding of Llama Tokenizer)。 **3、Llama 4的分词器:尚未公布** 截至目前,Meta尚未公开LLaMA 4的全部细节,但据行业推测,LLaMA 4的分词器可能具备以下特征: 继续使用Tiktoken,优化多语言处理; 词汇表可能进一步扩大,覆盖更广泛的词汇; 在分词效率、中文支持和噪声控制方面进行深度优化; 更好地支持"指令跟随(Instruction Tuning)"等复杂任务。 **资源消耗** 大模型的运行需要巨大的计算资源投入(如GPU/TPU算力),Token数量与处理文本的计算量呈正相关关系。采用Token计费方式能够更精准地反映不同长度文本的真实资源消耗。‌ 例如,处理1000万Token的长文档所消耗的算力显著高于短文本,这种按实际用量收费的模式能有效克服传统统一定价的局限性。 ![图片](https://oss.xyyzone.com/jishuzhan/article/1983797289194946562/45f7bb4f5236c432d88b1ae9c9a3a045.webp) **商业模式** Token计费‌通过将输入与输出的文本量统一转换为标准化计量单位(如输入1k Token + 输出2k Token = 总消耗3k Token),使用户能够清晰预估成本。 而传统API按次计费(如每次0.01元)的模式,难以体现简单请求与复杂任务之间的资源占用差异。 此外,大模型的全生命周期成本极高,‌研发训练‌阶段可能耗资数千万美元,采用Tokens计费可有效覆盖持续推理所需的实时算力支出,实现成本分摊的精细化。 **七、总结** Token和分词器堪称大语言模型的"隐形引擎"。Token作为AI解析文本的原子单元,分词器则是实现文本到Token转换的精密工具。 从最初的WordPiece、BPE,到现今的SentencePiece与Tiktoken,技术演进揭示了一个关键事实:分词器的设计远非技术细节那么简单。 它不仅关乎文本编码的效能优化,更从根本上塑造着模型的语言认知能力、训练资源消耗以及实际推理效果。 不过Tokens计价并非单一方案,部分服务商推行复合计费模式,例如:会员制+按Tokens结算,或为小型模型设置免费用量。 当前行业对Tokens的界定尚未形成共识,各平台中文Tokens与字符的换算比例存在差异,可能造成跨平台成本波动。但不可否认的是,Tokens作为"AI经济体系的通用货币",已成为大模型商业应用中最广泛采用的计费标准。 通过本文,相信你能系统掌握Token与分词器的核心价值。唯有深入理解Token的本质,我们才能精准操控大模型,使其服务于各类应用场景。 **更多AI大模型学习视频及资源,都在[智泊AI](https://link.juejin.cn?target=https%3A%2F%2Fyuan.zhipoai.cn%2F "https://yuan.zhipoai.cn/")。**

相关推荐
信鑫9 小时前
AIO Sandbox:为 AI Agent 打造的一体化、可定制的沙箱环境
llm·agent·强化学习
潘小安1 天前
『译』迄今为止最强的 RAG 技术?Anthropic 的上下文检索与混合搜索
算法·llm·claude
AI大模型1 天前
手把手教你本地部署大模型:CUDA与cuDNN环境配置全攻略
程序员·llm·agent
AI大模型1 天前
手把手教你本地部署 Dify——打造属于自己的 AI 应用平台
程序员·llm·agent
yaocheng的ai分身1 天前
Octoverse:AI 推动 TypeScript 登顶 #1,每秒都有新开发者加入 GitHub
llm·github
智泊AI1 天前
13张图解Transformer和混合专家(MoE)的差别 | 大型语言模型的架构对比
llm
Goboy2 天前
用Trae IDE+GLM4.6 API 搭了个小红书文案生成器,新手也能秒出爆款!附保姆级教程
llm·ai编程·trae
智泊AI2 天前
终于有人把人工智能神经网络基本原理讲清楚了!
llm
大模型教程2 天前
dify和Langchain-Chatchat有什么区别?
程序员·langchain·llm