基于Python的自然语言处理系列(34):Huggingface 自定义分词器与数据集

在自然语言处理 (NLP) 中,分词是将原始文本转换为模型可处理的数字形式的关键步骤。无论是情感分析、文本生成,还是问答系统,分词都决定了模型如何理解输入数据。Huggingface 的 transformers 库提供了多种强大的分词工具,使我们可以灵活地加载、保存和使用预训练模型的分词器。本篇文章将深入探讨 Huggingface 的分词器工作机制,包括基于词、字符和子词的分词方法。同时,我们将介绍如何处理长序列、多序列、以及使用填充 (padding) 和注意力掩码 (attention mask) 进行批处理。

1. 使用 AutoModelAutoTokenizer

Huggingface 的 AutoModelAutoTokenizer 是两个非常实用的工具。AutoModel 可以自动检测检查点的架构,并加载相应的模型;而 AutoTokenizer 可以根据模型的需求自动加载和配置分词器。这使得我们在不同任务之间切换时更加灵活。

创建 Transformer 模型

我们可以使用预训练的 BERT 模型,并通过 Huggingface 提供的 from_pretrained() 方法轻松加载模型:

python 复制代码
from transformers import BertModel

model = BertModel.from_pretrained("bert-base-cased")
print(model)

通过上述代码,模型会自动从 Huggingface Hub 下载,并缓存在本地,避免重复下载。

2. 分词器的工作机制

模型只能处理数字形式的输入,分词器负责将原始文本转换为这种输入。我们可以根据不同任务选择不同的分词策略,例如基于词的分词、基于字符的分词,以及结合两者优点的子词分词。

基于词的分词

基于词的分词是最简单的方法,直接将句子拆分为单词:

python 复制代码
tokenized_text = "Chaky is a deep learning guy".split()
print(tokenized_text)

基于字符的分词

字符级分词适用于处理复杂语言,如中文,每个字符都包含丰富的语义信息:

python 复制代码
list("Chaky is a deep learning guy")

子词分词

子词分词在保证语义完整性的同时减少了词汇表的大小,例如将 "tokenization" 分为 "token" 和 "ization":

python 复制代码
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-cased")
tokens = tokenizer.tokenize("Using a Transformer network is simple")
print(tokens)

3. 分词器的加载与保存

分词器的加载与模型的加载类似,可以使用 from_pretrained() 方法进行加载,也可以使用 save_pretrained() 方法保存到本地:

python 复制代码
tokenizer = BertTokenizer.from_pretrained("bert-base-cased")
tokenizer.save_pretrained("tokenizer_weights")

4. 处理多序列和长序列

当我们需要处理多条输入序列时,分词器可以自动进行填充和截断操作,以确保输入的形状一致。

使用填充处理多序列

我们可以使用 padding 参数让所有序列对齐:

python 复制代码
sequences = ["I've been waiting for a HuggingFace course my whole life.", "So have I!"]
tokens = tokenizer(sequences, padding=True, truncation=True, return_tensors="pt")
print(tokens)

使用注意力掩码

在填充后,注意力掩码用于告诉模型忽略填充的部分:

python 复制代码
batched_ids = [
    [200, 200, 200],
    [200, 200, tokenizer.pad_token_id],
]
attention_mask = [
    [1, 1, 1],
    [1, 1, 0],
]
outputs = model(torch.tensor(batched_ids), attention_mask=torch.tensor(attention_mask))
print(outputs.logits)

5. 特殊 Token 的使用

某些模型需要在输入开头和结尾添加特殊标记,如 [CLS][SEP]

python 复制代码
sequence = "I've been waiting for a HuggingFace course my whole life."
model_inputs = tokenizer(sequence)
print(model_inputs["input_ids"])
print(tokenizer.decode(model_inputs["input_ids"]))

6. 将所有步骤整合在一起

最后,我们将所有的分词步骤整合在一起,处理多条序列并进行推理:

python 复制代码
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)

sequences = ["I've been waiting for a HuggingFace course my whole life.", "So have I!"]
tokens = tokenizer(sequences, padding=True, truncation=True, return_tensors="pt")
output = model(**tokens)
print(output)

结语

在本篇文章中,我们详细介绍了 Huggingface 的分词器工作机制,并展示了如何加载、保存和使用分词器来处理多序列和长序列数据。我们还探讨了注意力掩码在批处理中的重要性。理解这些概念和技术将帮助你在实际项目中更高效地处理文本数据。

在接下来的文章中,我们将深入探讨 Transformer 模型的微调 (Finetuning)。你将学习如何在特定任务上微调预训练模型,以进一步提升其性能。敬请期待《基于Python的自然语言处理系列(35):微调》!

如果你觉得这篇博文对你有帮助,请点赞、收藏、关注我,并且可以打赏支持我!

欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

谢谢大家的支持!

相关推荐
爱喝白开水a几秒前
Sentence-BERT实现文本匹配【分类目标函数】
人工智能·深度学习·机器学习·自然语言处理·分类·bert·大模型微调
Jack黄从零学c++22 分钟前
opencv(c++)---自带的卷积运算filter2D以及应用
c++·人工智能·opencv
封步宇AIGC32 分钟前
量化交易系统开发-实时行情自动化交易-4.2.3.指数移动平均线实现
人工智能·python·机器学习·数据挖掘
Mr.谢尔比1 小时前
李宏毅机器学习课程知识点摘要(1-5集)
人工智能·pytorch·深度学习·神经网络·算法·机器学习·计算机视觉
我是博博啦1 小时前
matlab例题
人工智能·算法·matlab
DieYoung_Alive1 小时前
一篇文章了解机器学习
人工智能·机器学习
2023数学建模国赛比赛资料分享1 小时前
2024亚太杯国际赛C题宠物预测1234问完整解题思路代码+成品参考文章
人工智能·数学建模·宠物·2024亚太杯国际赛数学建模·2024亚太杯国际赛a题·2024亚太杯国际赛数模abc·2024亚太杯数学建模
思通数科AI全行业智能NLP系统1 小时前
六大核心应用场景,解锁AI检测系统的智能安全之道
图像处理·人工智能·深度学习·安全·目标检测·计算机视觉·知识图谱
程序员小范2 小时前
孙玲:从流水线工人到谷歌程序员
人工智能·程序员·谷歌·远程工作
命里有定数2 小时前
Paper -- 洪水深度估计 -- 利用图像处理和深度神经网络绘制街道照片中的洪水深度图
图像处理·人工智能·dnn·洪水深度·高度估计