BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
大多_C1 天前
BERT outputs
人工智能·深度学习·bert
通信仿真实验室2 天前
BERT模型入门(1)BERT的基本概念
人工智能·深度学习·自然语言处理·bert·transformer
goomind3 天前
BERT模型
人工智能·深度学习·bert
通信仿真实验室3 天前
BERT模型入门(2)BERT的工作原理
人工智能·深度学习·自然语言处理·bert·transformer
weixin_543662867 天前
BERT的中文问答系统55
人工智能·python·bert
微雨盈萍cbb9 天前
BERT--自然语言处理的革命性进展
人工智能·自然语言处理·bert
Jacob_AI10 天前
为什么 Bert 的三个 Embedding 可以进行相加?
人工智能·bert·embedding
傅科摆 _ py11 天前
ANOMALY BERT 解读
人工智能·深度学习·bert
通信仿真实验室11 天前
Google BERT入门(5)Transformer通过位置编码学习位置
人工智能·深度学习·神经网络·自然语言处理·nlp·bert·transformer
python_知世13 天前
【NLP修炼系列之Bert】Bert多分类&多标签文本分类实战(附源码下载)
人工智能·深度学习·自然语言处理·大模型·nlp·bert·多标签文本分类