【学习总结】Python transformers AutoTokenizer encode 出现的 101 和 102

1. 代码展示:

python 复制代码
from transformers import AutoTokenizer, AutoModel

model_name = "bert-base-chinese"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

print(len(tokenizer.vocab.keys()))

sequence = "法国的首都是巴黎"
print(tokenizer.vocab["法"])
tokens = tokenizer.tokenize(sequence)
print(tokens)

token_ids = tokenizer.convert_tokens_to_ids(tokens)
print(token_ids)

token_ids_s2e = tokenizer.encode(sequence)
print(token_ids_s2e)

输出结果:

bash 复制代码
21128
3791
['法', '国', '的', '首', '都', '是', '巴', '黎']
[3791, 1744, 4638, 7674, 6963, 3221, 2349, 7944]
[101, 3791, 1744, 4638, 7674, 6963, 3221, 2349, 7944, 102]

token_ids_s2e 中多了 101 和 102

python 复制代码
sequence1 = tokenizer.decode(token_ids)
print(sequence1)

sequence2 = tokenizer.decode(token_ids_s2e)
print(sequence2)

输出结果:

bash 复制代码
法 国 的 首 都 是 巴 黎
[CLS] 法 国 的 首 都 是 巴 黎 [SEP]

101 代表 CLS,是文本的开头

102 代表 SEP,是文本的分隔符

2. 编解码多段文本

python 复制代码
sequence_batch = ["法国的首都是巴黎","美国的首都是华盛顿特区" ]
token_ids_batch = tokenizer.encode(sequence_batch)
print(token_ids_batch)
sequence_batch = tokenizer.decode(token_ids_batch)
print(sequence_batch)

输出结果:

powershell 复制代码
[101, 3791, 1744, 4638, 7674, 6963, 3221, 2349, 7944, 102, 5401, 1744, 4638, 7674, 6963, 3221, 1290, 4670, 7561, 4294, 1277, 102]
[CLS] 法 国 的 首 都 是 巴 黎 [SEP] 美 国 的 首 都 是 华 盛 顿 特 区 [SEP]

3. 实际操作

python 复制代码
embedding_batch = tokenizer("法国的首都是巴黎","美国的首都是华盛顿特区")
print(embedding_batch)

输出:

bash 复制代码
{'input_ids': [101, 3791, 1744, 4638, 7674, 6963, 3221, 2349, 7944, 102, 5401, 1744, 4638, 7674, 6963, 3221, 1290, 4670, 7561, 4294, 1277, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

优化代码

python 复制代码
for key, value in embedding_batch.items():
    print(f"{key}: {value}\n")

输出:

bash 复制代码
input_ids: [101, 3791, 1744, 4638, 7674, 6963, 3221, 2349, 7944, 102, 5401, 1744, 4638, 7674, 6963, 3221, 1290, 4670, 7561, 4294, 1277, 102]

token_type_ids: [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]

attention_mask: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]

编码后返回结果是:

bash 复制代码
input_ids: token_ids
token_type_ids: token_id 归属的句子编号
attention_mask: 指示哪些token需要被关注(注意力机制)

4. 查看词表

python 复制代码
from itertools import islice

# 使用 islice 查看词表部分内容
for key, value in islice(tokenizer.vocab.items(), 30,40):
    print(f"{key}: {value}")

输出结果:

python 复制代码
叼: 1388
赓: 6607
##禀: 17937
骡: 7751
ing: 10139
滙: 4002
##楼: 16574
##部: 20013
##针: 20208
##酥: 20046
相关推荐
Awu12271 分钟前
⚡从零开发 Agent CLI(四):给 CLI 装上"LLM 引擎"
typescript·ai编程·claude
用户6033186521565 分钟前
Autocode:基于多 Agent 协作的自动化代码实现引擎
ai编程
飞飞的AI实验室7 分钟前
小米也开源了终端编程助手,我拿它跟天天用的 Claude Code 真打了一轮
ai编程·claude
leeyi15 分钟前
Agent Transfer:让 AI 把任务交给更合适的 AI
aigc·agent·ai编程
universeplayer24 分钟前
天天用 Claude Code 和 Codex,但你比过它们在你自己的活上谁更强吗?我写了个工具让它们同台开打
ai编程·claude·cursor
花椒技术1 小时前
Agent 不只会聊天:我们如何用 CLI 整理业务能力入口
agent·ai编程·mcp
FanetheDivine3 小时前
学习Agent开发6 langgraph速览
agent·ai编程
coderhuo3 小时前
惊呆了:AI改了三个字节,修好了一个跑不起来的adb
ai编程
threerocks4 小时前
什么?我连 A2A、MCP 都没学会,现在又来了 AG-UI、A2UI.
前端·aigc·ai编程
Coffeeee5 小时前
两个例子,帮你快速理解什么是Token
人工智能·程序员·ai编程