BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
weixin_5436628615 小时前
BERT的中文问答系统33
人工智能·深度学习·bert
爱喝白开水a15 小时前
Sentence-BERT实现文本匹配【分类目标函数】
人工智能·深度学习·机器学习·自然语言处理·分类·bert·大模型微调
weixin_543662862 天前
BERT的中文问答系统32
python·深度学习·bert
Slender20012 天前
大模型KS-LLM
人工智能·深度学习·机器学习·自然语言处理·大模型·bert·知识图谱
fdt丶3 天前
BERT-TFBS:一种基于 BERT 的新型模型,通过迁移学习预测转录因子结合位点
人工智能·bert·迁移学习
SEVEN-YEARS4 天前
BERT模型中的嵌入后处理与注意力掩码
人工智能·bert·easyui
SEVEN-YEARS4 天前
深入理解BERT模型配置:BertConfig类详解
人工智能·深度学习·bert
SEVEN-YEARS5 天前
深入理解BERT模型:BertModel类详解
人工智能·深度学习·自然语言处理·bert
weixin_543662865 天前
BERT的中文问答系统34
python·深度学习·bert
机智的小神仙儿6 天前
基于BERT的情感分析
人工智能·深度学习·自然语言处理·bert