BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

复制代码
[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
fyakm2 天前
词向量:从 One-Hot 到 BERT Embedding,NLP 文本表示的核心技术
自然语言处理·bert·embedding
星川皆无恙3 天前
知识图谱之深度学习:基于 BERT+LSTM+CRF 驱动深度学习识别模型医疗知识图谱问答可视化分析系统
大数据·人工智能·深度学习·bert·知识图谱
无妄无望4 天前
解码器系列(1)BERT
人工智能·深度学习·bert
苏苏susuus4 天前
NLP:讲解Bert模型的变体
人工智能·自然语言处理·bert
苏苏susuus5 天前
NLP:关于Bert模型的基础讲解
人工智能·自然语言处理·bert
冰糖猕猴桃6 天前
【AI】详解BERT的输出张量pooler_output
人工智能·自然语言处理·nlp·bert·pooler_output
热爱生活的猴子6 天前
使用bert或roberta模型做分类训练时,分类数据不平衡时,可以采取哪些优化的措施
人工智能·分类·bert
兔兔爱学习兔兔爱学习8 天前
大模型之bert变种
人工智能·深度学习·bert
正经人_x8 天前
学习日记19:GRAPH-BERT
人工智能·学习·bert
让我看看好学吗9 天前
AI产品经理项目实战:BERT语义分析识别重复信息
人工智能·深度学习·aigc·bert·产品经理