BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

复制代码
[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
极光代码工作室18 小时前
基于BERT的新闻文本分类系统
深度学习·nlp·bert·文本分类
Spliceㅤ21 小时前
Product-classify-bert项目
人工智能·深度学习·bert
新缸中之脑2 天前
微调BERT进行命名实体识别
人工智能·深度学习·bert
弘弘弘弘~3 天前
项目实战之评论情感分析模型——基于Bert(含任务头)
人工智能·深度学习·bert
高山流水&上善3 天前
基于BERT情感分析与多维度可视化的B站热门视频评论分析系统
人工智能·bert·音视频
33三 三like3 天前
BERT-BiLSTM-CRF 养老需求实体抽取模型解析与实践:从口语文本到结构化知识
人工智能·深度学习·bert
羊小猪~~5 天前
LLM--BERT架构解析
人工智能·深度学习·大模型·llm·nlp·bert·ai算法
F_D_Z7 天前
NNLM、Word2Vec(CBOW、Skip-gram) 与 BERT:神经网络语言模型的演进与对比
神经网络·bert·word2vec
weixin_668898648 天前
Bert解读
人工智能·机器学习·bert
Flying pigs~~9 天前
基于huggingface库Trainer实现Bert文本分类实战
人工智能·自然语言处理·bert·文本分类·huggingface·trainer