技术栈
tokenizer
花花少年
1 个月前
token
·
tokenizer
·
分词器
通俗易懂理解Token分词(经验版)
常识| 大模型收费计量单位之Token概念在 AI 领域,Token 是指模型处理的基本数据单位。它可以是单词、字符、短语甚至图像片段、声音片段等。例如,一句话会被分割成多个 Token,每个标点符号也会被视为单独的 Token。
颹蕭蕭
5 个月前
bert
·
tokenizer
·
标点
BERT tokenizer 增加全角标点符号
bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可
若石之上
1 年前
人工智能
·
llm
·
transformer
·
train
·
tokenizer
大模型:如何利用旧的tokenizer训练出一个新的来?
背景:我们在用chatGPT或者SD的时候,发现如果使用英语写提示词得到的结果比我们使用中文得到的结果要好很多,为什么呢?这其中就有一个叫做tokenizer的东西在作怪。