BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

复制代码
[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
Ama_tor3 天前
14.AI搭建preparationのBERT预训练模型进行文本分类
人工智能·深度学习·bert
摘取一颗天上星️4 天前
BERT:让AI真正“读懂”语言的革命
人工智能·深度学习·bert
付付付付大聪明7 天前
使用BERT/BiLSTM + CRF 模型进行NER进展记录~
人工智能·深度学习·bert
旺旺棒棒冰8 天前
bert扩充或者缩小词表
人工智能·深度学习·bert
大囚长9 天前
BERT和GPT语言模型的核心差异
gpt·语言模型·bert
m0_677904849 天前
BERT***
人工智能·深度学习·bert
油泼辣子多加9 天前
【大模型】Bert应对超长文本
人工智能·深度学习·bert
pen-ai9 天前
【深度学习】11. Transformer解析: Self-Attention、ELMo、Bert、GPT
深度学习·bert·transformer
油泼辣子多加10 天前
【大模型】Bert变种
人工智能·深度学习·bert
数据与后端架构提升之路10 天前
Dropout 在大语言模型中的应用:以 GPT 和 BERT 为例
gpt·bert·dropout