在BERT模型中添加自己的词汇(pytorch版) - 知乎
输入
- 扩充词表
替换bert词表中的【unused】
- 缩小词表
因为要使用预训练的模型,词id不能变,词向量矩阵大小不变
要做的是将减少的那一部分词全部对应为unk,即可
输出
如果是mlm任务,输出也是bert的词表大小。
- 扩充词表
(1) 不改变原来的id,直接将**【unused】**换成要补充汉字
(2) bert词表+新词重新排列,在词表中的,使用对应的分类参数初始化,不在的,随机初始化
added_tokens.json 怎么用
- 缩小词表
这里可以随机挑选bert中的词,将对应的分类参数拷贝过来即可, 重新安排好