技术栈
标点
颹蕭蕭
8 个月前
bert
·
tokenizer
·
标点
BERT tokenizer 增加全角标点符号
bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可