BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

复制代码
[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
TracyCoder1231 天前
BERT:让模型 “读懂上下文” 的双向语言学习法
人工智能·深度学习·bert
ku_code_ku2 天前
python bert_score使用本地模型的方法
开发语言·python·bert
free-elcmacom2 天前
机器学习高阶教程<2>优化理论实战:BERT用AdamW、强化学习爱SGD
人工智能·python·机器学习·bert·强化学习·大模型训练的优化器选择逻辑
_codemonster3 天前
自然语言处理容易混淆知识点(二)BERT和BERTopic的区别
人工智能·自然语言处理·bert
云雾J视界9 天前
当算法试图解决一切:技术解决方案主义的诱惑与陷阱
算法·google·bert·transformer·attention·算法治理
鹿角片ljp9 天前
基于 BERT 实现文本相似度打分:完整项目实战
人工智能·深度学习·bert
Francek Chen10 天前
【自然语言处理】预训练10:预训练BERT
人工智能·pytorch·深度学习·自然语言处理·bert
bulingg12 天前
bert常见的变体
人工智能·深度学习·bert
q_302381955613 天前
华为Atlas310意图识别如何实现?
华为·自然语言处理·bert
J_Xiong011715 天前
【NLUs篇】01:JointBERT:用于联合意图分类和槽位填充的 BERT 模型
分类·bert