大模型生成 Token 的原理：从文本到模型理解的 “翻译官”

【个人主页：玄同765】

大语言模型（LLM）开发工程师 ｜中国传媒大学·数字媒体技术（智能交互与游戏设计）

**深耕领域：**大语言模型开发 / RAG知识库 / AI Agent落地 / 模型微调

**技术栈：**Python / LangChain/RAG（Dify+Redis+Milvus）| SQL/NumPy | FastAPI+Docker ️

**工程能力：**专注模型工程化部署、知识库构建与优化，擅长全流程解决方案

「让AI交互更智能，让技术落地更高效」

欢迎技术探讨/项目合作！关注我，解锁大模型与智能交互的无限可能！

当你和 ChatGPT、GPT-4 或文心一言对话时，输入的每一段文字都会被拆解成一个个看不见的 "积木"------Token。这些 Token 是大模型理解和生成文本的基本单位，决定了模型能处理的上下文长度、生成效率，甚至 API 调用成本。本文将从底层原理出发，带你彻底搞懂大模型生成 Token 的全过程，以及它如何影响大模型的表现。

一、什么是 Token？大模型的 "原子单位"

Token 是大模型对自然语言进行数字化编码的基本单元，它既不是单个字符，也不是完整单词，而是介于两者之间的 "语义片段"：

英文中，一个 Token 可能对应半个单词（如 "unhappiness" 拆分为 "un" 和 "happiness"）、一个单词（如 "cat"）或多个单词（如 "New York"）；
中文中，一个 Token 通常对应 1-2 个汉字（如 "人工智能" 可能拆分为 "人工" 和 "智能"）；
特殊符号、数字、表情也会被编码为独立 Token（如 "😀"、"123"、"@"）。

Token 的核心作用

桥梁作用：将人类可读的自然语言转换为模型可处理的数字 ID，是自然语言与模型向量空间的 "翻译官"；
效率优化：通过合并高频语义片段，减少模型需要处理的单位数量，提升训练和推理效率；
上下文限制：大模型的 "上下文窗口"（如 GPT-4 的 8k/32k Token）本质是能处理的 Token 数量上限，直接决定了模型能理解的文本长度。

二、Token 生成的核心原理：从文本到词汇表

大模型的 Token 生成过程由 **Tokenizer（分词器）完成，核心是通过算法从海量语料中学习语义片段，构建词汇表，再将新文本映射到词汇表中的 Token。目前主流大模型（如 GPT 系列、Llama）都基于Byte-Pair Encoding（BPE）** 算法，以下是详细拆解：

1. 第一步：文本预处理 ------ 标准化原始文本

在分词前，Tokenizer 会先对原始文本进行标准化处理，确保输入的一致性：

大小写统一：部分模型会将所有文本转为小写（如 BERT），但 GPT 系列保留大小写以区分专有名词；
特殊字符处理：统一标点符号格式（如将全角标点转为半角）、处理空格和换行符；
Unicode 标准化：将不同编码的相同字符统一（如把 "é" 和 "e+" 合并为标准形式）；
特殊标记插入 ：添加模型所需的特殊 Token，如 GPT 的<|endoftext|>表示文本结束，BERT 的[CLS]表示句子开头。

2. 第二步：核心算法 ------Byte-Pair Encoding（BPE）

BPE 是一种数据驱动的分词算法，它通过从语料库中学习最频繁的字符组合，逐步构建词汇表，平衡词汇表大小和语义表达能力。以下是 BPE 的工作流程：

示例：BPE 如何从语料中构建词汇表

假设我们有一个简单的语料库：

复制代码

"aaabaaaab", "ababab"

步骤 1：初始化词汇表

将所有字符作为初始词汇表，并统计每个字符的频率：

复制代码

词汇表：{'a': 7, 'b': 4}

步骤 2：迭代合并最频繁的字符对

第一次合并 ：统计字符对频率，"ab" 出现 3 次，"aa" 出现 3 次，"ba" 出现 2 次。合并 "aa" 为新 Token"aa"，词汇表更新为：
复制代码
```
{'a': 1, 'aa': 3, 'b': 4}
```
第二次合并 ：统计新的字符对，"aaa" 出现 2 次（来自 "aaab"），"aab" 出现 1 次，合并 "aaa" 为 "aaa"，词汇表更新为：
复制代码
```
{'aaa': 2, 'aa': 1, 'a': 1, 'b': 4}
```
重复迭代：直到达到预设的词汇表大小（如 GPT-3 的词汇表有 50257 个 Token）。

步骤 3：编码新文本

对于新文本 "aaabaaaab"，用构建好的词汇表进行编码：

复制代码

"aaabaaaab" → "aaa" + "b" + "aaa" + "b" → 对应Token ID列表：[2, 3, 2, 3]

3. 不同模型的 Tokenizer 差异

虽然 BPE 是主流，但不同大模型的 Tokenizer 有细微差异：

模型系列	分词算法	词汇表大小	特殊特性
GPT 系列	BPE	50257	保留大小写、支持多语言混合
BERT 系列	WordPiece	30522	小写统一、更适合中文分词
T5 系列	SentencePiece	32100	字节级处理、支持所有 Unicode 字符
Llama 系列	BPE	32000	高效压缩、多语言支持

关键差异解析

WordPiece：BERT 使用的算法，优先拆分稀有词，更适合需要精确语义理解的任务；
SentencePiece：T5 使用的算法，直接处理字节，无需预处理，适合多语言和低资源语言；
GPT BPE：保留大小写和标点，更适合生成类任务，能区分 "Apple"（苹果公司）和 "apple"（水果）。

三、Token 的编码与解码：模型的 "语言系统"

Tokenizer 的工作分为 ** 编码（Encode）和解码（Decode）** 两个阶段，完成自然语言与模型内部表示的双向转换：

1. 编码：文本→Token ID→向量

复制代码

graph LR
    A[原始文本] --> B[Tokenizer预处理]
    B --> C[Token拆分]
    C --> D[映射到Token ID]
    D --> E[模型嵌入层]
    E --> F[向量表示]

Token 拆分：将文本拆分为词汇表中的 Token 序列；
Token ID 映射：每个 Token 对应一个唯一的数字 ID（如 GPT 中 "<|endoftext|>" 对应 ID 50256）；
向量嵌入：模型将 Token ID 转换为高维向量（如 GPT-3 的 12288 维向量），用于后续的注意力计算和生成。

2. 解码：向量→Token ID→文本

复制代码

graph LR
    A[模型输出向量] --> B[预测下一个Token ID]
    B --> C[Token ID映射到Token]
    C --> D[Token序列拼接]
    D --> E[自然语言文本]

预测 Token ID：模型通过注意力机制预测下一个最可能的 Token ID；
Token 拼接：将 Token ID 序列转换为 Token 字符串；
文本生成：将 Token 序列拼接为人类可读的自然语言文本。

特殊 Token 的作用

Tokenizer 会定义一些特殊 Token，用于控制模型行为：

<|endoftext|>：GPT 系列的文本结束标记，模型生成到该 Token 时停止；
[CLS]：BERT 的句子分类标记，用于下游任务的分类输出；
[MASK]：BERT 的掩码标记，用于预训练时的掩码语言建模任务；
<|user|> /<|assistant|>：ChatGPT 的角色标记，区分用户输入和模型输出。

四、Token 在大模型中的实际影响

1. 上下文窗口：Token 数量决定理解长度

大模型的 "上下文窗口" 是指能同时处理的 Token 数量上限，直接影响模型的表现：

GPT-3.5：4k/16k Token（约 3000/12000 个汉字）；
GPT-4：8k/32k/128k Token（约 6000/24000/96000 个汉字）；
Llama 2：4k/70k Token。

超过上下文窗口的文本会被截断，导致模型无法理解完整语义，因此长文本处理需要特殊技术（如 RAG、Token 压缩）。

2. 成本与效率：Token 直接关联 API 费用

以 OpenAI API 为例，费用按 Token 数量计算：

GPT-3.5-turbo： $0.0015/1k输入Token，$ 0.002/1k 输出 Token；
GPT-4： $0.03/1k输入Token，$ 0.06/1k 输出 Token。

优化 Token 使用（如精简 prompt、使用更高效的 Tokenizer）可直接降低成本。

3. 语言差异：中文比英文更 "费 Token"

由于中文是表意文字，每个汉字通常对应 1-2 个 Token，而英文单词平均对应 1.3 个 Token，因此相同语义的中文文本会比英文消耗更多 Token：

英文："Artificial intelligence is changing the world" → 7 个 Token；
中文："人工智能正在改变世界" → 6 个 Token（部分模型可能拆分为更多）。

五、实战：用代码理解 Token 生成

我们可以用 OpenAI 开源的tiktoken库直观感受 Token 生成过程：

1. 安装 tiktoken

复制代码

pip install tiktoken

2. 示例 1：统计文本的 Token 数量

复制代码

import tiktoken

# 选择GPT-3.5的Tokenizer
encoding = tiktoken.get_encoding("cl100k_base")

# 编码文本
text = "人工智能正在改变世界，大模型的Token生成原理是什么？"
token_ids = encoding.encode(text)
tokens = [encoding.decode_single_token_bytes(id) for id in token_ids]

print(f"原始文本：{text}")
print(f"Token数量：{len(token_ids)}")
print(f"Token列表：{tokens}")
print(f"Token ID列表：{token_ids}")

输出示例：

复制代码

原始文本：人工智能正在改变世界，大模型的Token生成原理是什么？
Token数量：18
Token列表：[b'\xe4\xba\xba\xe5\xb7\xa5', b'\xe6\x99\xba\xe8\x83\xbd', b'\xe6\xad\xa3\xe5\x9c\xa8', b'\xe6\x94\xb9\xe5\x8f\x98', b'\xe4\xb8\x96\xe7\x95\x8c', b'\xef\xbc\x8c', b'\xe5\xa4\xa7', b'\xe6\xa8\xa1\xe5\x9e\x8b', b'\xe7\x9a\x84', b'T', b'o', b'k', b'e', b'n', b'\xe7\x94\x9f\xe6\x88\x90', b'\xe5\x8e\x9f\xe7\x90\x86', b'\xe6\x98\xaf\xe4\xbb\x80\xe4\xb9\x88', b'\xef\xbc\x9f']
Token ID列表：[100595, 100781, 92507, 86208, 91097, 117, 25805, 91489, 570, 821, 191, 470, 163, 157, 86580, 89326, 100511, 136]

3. 示例 2：自定义 Tokenizer（简化版 BPE）

复制代码

from collections import defaultdict

def train_bpe(corpus, vocab_size):
    # 初始化：每个字符为单独Token
    vocab = list(set(''.join(corpus)))
    vocab_size_initial = len(vocab)
    if vocab_size_initial >= vocab_size:
        return vocab
    
    # 统计字符对频率
    def get_pairs(token_list):
        pairs = defaultdict(int)
        for tokens in token_list:
            for i in range(len(tokens)-1):
                pairs[(tokens[i], tokens[i+1])] += 1
        return pairs
    
    # 初始化Token列表
    token_list = [list(word) for word in corpus]
    
    # 迭代合并最频繁的字符对
    for i in range(vocab_size - vocab_size_initial):
        pairs = get_pairs(token_list)
        if not pairs:
            break
        # 选择频率最高的字符对
        best_pair = max(pairs, key=pairs.get)
        # 合并字符对
        new_token = ''.join(best_pair)
        vocab.append(new_token)
        # 更新Token列表
        new_token_list = []
        for tokens in token_list:
            new_tokens = []
            j = 0
            while j < len(tokens):
                if j < len(tokens)-1 and (tokens[j], tokens[j+1]) == best_pair:
                    new_tokens.append(new_token)
                    j += 2
                else:
                    new_tokens.append(tokens[j])
                    j += 1
            new_token_list.append(new_tokens)
        token_list = new_token_list
    return vocab

# 训练简单语料
corpus = ["aaabaaaab", "ababab"]
vocab = train_bpe(corpus, 10)
print("训练后的词汇表：", vocab)

六、进阶思考：Token 的 "理解" 与局限

1. 模型真的 "理解" Token 吗？

大模型通过 Token 学习语义关联，但本质是统计层面的模式匹配，而非真正的 "理解"。例如，模型能生成 "猫喜欢吃鱼"，是因为训练语料中 "猫" 和 "鱼" 的 Token 频繁共现，而非模型知道猫和鱼的生物学关系。

2. Token 的偏见与公平性

Tokenizer 的词汇表来自训练语料，若语料存在偏见，Token 也会携带偏见。例如，某些模型对少数族裔的称呼可能被拆分为负面 Token 组合，导致生成文本的偏见。

3. 未来趋势：更高效的 Tokenizer

动态 Tokenizer：根据输入文本动态调整词汇表，适应特定领域；
多模态 Tokenizer：统一处理文本、图像、音频等多模态 Token；
压缩 Tokenizer：在不损失语义的前提下，减少 Token 数量，提升上下文窗口效率。

七、总结：Token 是大模型的 "基石"

Token 作为大模型处理自然语言的基本单位，贯穿了从文本输入到模型生成的全过程。理解 Token 生成原理，不仅能帮助我们优化 prompt、降低成本，更能深入理解大模型的工作机制。

从 BPE 算法的语料学习，到 Tokenizer 的编码解码，再到 Token 对模型性能的影响，每一个环节都体现了大模型设计的精妙平衡 ------ 在语义表达、效率和成本之间找到最优解。未来，随着 Tokenizer 技术的演进，大模型将能处理更长、更复杂的文本，为更多场景带来可能。