BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
Shy96041825 分钟前
Bert完形填空
python·深度学习·bert
软工菜鸡10 小时前
预训练语言模型BERT——PaddleNLP中的预训练模型
大数据·人工智能·深度学习·算法·语言模型·自然语言处理·bert
向阳121813 小时前
Bert快速入门
人工智能·python·自然语言处理·bert
湫ccc1 天前
Bert框架详解(上)
人工智能·深度学习·bert
快乐点吧1 天前
BERT 模型在句子分类任务中的作用分析笔记
笔记·分类·bert
weixin_543662861 天前
BERT的中文问答系统28
人工智能·python·bert
湫ccc2 天前
Bert框架详解(下)
人工智能·深度学习·bert
Landy_Jay2 天前
跟李沐学AI:BERT
人工智能·自然语言处理·bert
0x2112 天前
[论文阅读]BERT-based Lexical Substitution
论文阅读·人工智能·bert
红米煮粥3 天前
BERT框架
人工智能·深度学习·bert