BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
珊珊而川3 天前
BERT和Transformer模型有什么区别
人工智能·bert·transformer
GG_Bond194 天前
BERT模型
人工智能·自然语言处理·bert
静心问道4 天前
ConvBERT:通过基于跨度的动态卷积改进BERT
人工智能·深度学习·bert
沉下心来学鲁班7 天前
ScratchLLMStepByStep:训练自己的Tokenizer
人工智能·语言模型·中文分词·tokenizer
fdt丶8 天前
Transformers Learning Rate Schedules
python·bert·迁移学习
微学AI8 天前
人工智能任务19-基于BERT、ELMO模型对诈骗信息文本进行识别与应用
人工智能·深度学习·bert
深度学习实战训练营9 天前
BERT与CNN结合实现糖尿病相关医学问题多分类模型
分类·cnn·bert
CM莫问9 天前
python实战(十四)——Bert-BiLSTM-CRF命名实体识别
人工智能·python·深度学习·算法·bert·实体识别·crf
小饼干超人11 天前
bert微调下游任务-情感分析
人工智能·深度学习·bert
蒙娜丽宁11 天前
【人工智能】自然语言生成的前沿探索:利用GPT-2和BERT实现自动文本生成与完形填空
人工智能·gpt·bert