技术栈
文本表示
yvestine
1 个月前
人工智能
·
python
·
算法
·
自然语言处理
·
文本表示
自然语言处理——文本表示
词语通常表示为词向量,称为look_up_table,我们可以对𝐿右乘一个词的one-hot表示𝑒得到该词的低维、稠密的实数向量表达:𝑥=𝐿e 词表规模𝑉和词向量维度𝐷如何确定?
CM莫问
6 个月前
人工智能
·
python
·
深度学习
·
语言模型
·
大模型
·
tokenizer
·
文本表示
tokenizer、tokenizer.encode、tokenizer.encode_plus比较
在我们使用Transformers库进行自然语言处理任务建模的过程中,基本离不开Tokenizer类。我们需要这些Tokenizer类来帮助我们加载预训练模型的分词模块,并将文本转化为预训练模型可接受的输入格式。