BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

复制代码
[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
智算菩萨1 小时前
【Python自然语言处理】词向量表示理论基础:从Word2Vec到BERT
bert·easyui·word2vec
Francek Chen1 天前
【自然语言处理】应用06:针对序列级和词元级应用微调BERT
人工智能·pytorch·深度学习·自然语言处理·bert
摸鱼仙人~1 天前
BERT分类的上下文限制及解决方案
人工智能·分类·bert
摸鱼仙人~1 天前
使用 BERT 系列模型实现 RAG Chunk 分类打标
人工智能·分类·bert
guoketg3 天前
BERT的技术细节和面试问题汇总
人工智能·深度学习·bert
dyxal3 天前
BERT模型实战:金融新闻去重系统全解析
人工智能·金融·bert
民乐团扒谱机4 天前
【微科普】BERT 主题建模 + 多模态分析,解锁阆中古镇评论数据价值
人工智能·深度学习·bert
深度学习实战训练营5 天前
基于bert预训练的微博情感分析6分类模型
人工智能·分类·bert
汗流浃背了吧,老弟!5 天前
基于 BERT 的指令微调
人工智能·深度学习·bert
schinber6 天前
什么是Bert?
人工智能·自然语言处理·bert