技术栈
tokenizer
Hoper.J
1 个月前
transformers
·
tokenizer
·
1024程序员节
·
bpe
·
wordpiece
·
子词分割方法
BPE vs WordPiece:理解 Tokenizer 的工作原理与子词分割方法
在应用的路上“蒙着头”走了一段,是时候回过头来理解其中的工作原理了。文章将以文本处理为例,介绍数据预处理中的关键组件——Tokenizer(分词器)。需要注意的是,这里是偏概念性的讲解,不会严谨地讨论具体函数的参数细节。
花花少年
3 个月前
token
·
tokenizer
·
分词器
通俗易懂理解Token分词(经验版)
常识| 大模型收费计量单位之Token概念在 AI 领域,Token 是指模型处理的基本数据单位。它可以是单词、字符、短语甚至图像片段、声音片段等。例如,一句话会被分割成多个 Token,每个标点符号也会被视为单独的 Token。
颹蕭蕭
7 个月前
bert
·
tokenizer
·
标点
BERT tokenizer 增加全角标点符号
bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可
若石之上
1 年前
人工智能
·
llm
·
transformer
·
train
·
tokenizer
大模型:如何利用旧的tokenizer训练出一个新的来?
背景:我们在用chatGPT或者SD的时候,发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多,为什么呢?这其中就有一个叫做tokenizer的东西在作怪。