技术栈
文本表示
CM莫问
4 个月前
人工智能
·
python
·
深度学习
·
语言模型
·
大模型
·
tokenizer
·
文本表示
tokenizer、tokenizer.encode、tokenizer.encode_plus比较
在我们使用Transformers库进行自然语言处理任务建模的过程中,基本离不开Tokenizer类。我们需要这些Tokenizer类来帮助我们加载预训练模型的分词模块,并将文本转化为预训练模型可接受的输入格式。