技术栈

文本表示

CM莫问
5 个月前
人工智能·python·深度学习·语言模型·大模型·tokenizer·文本表示
tokenizer、tokenizer.encode、tokenizer.encode_plus比较在我们使用Transformers库进行自然语言处理任务建模的过程中,基本离不开Tokenizer类。我们需要这些Tokenizer类来帮助我们加载预训练模型的分词模块,并将文本转化为预训练模型可接受的输入格式。