BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

复制代码
[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
薛定谔的猫198219 小时前
十一、基于 BERT 的中文文本情感分类模型训练全解析
人工智能·深度学习·自然语言处理·分类·bert·大模型 训练 调优
阿龙AI日记1 天前
快速学会BERT模型!
深度学习·自然语言处理·nlp·bert
新缸中之脑4 天前
微调 BERT 实现命名实体识别
人工智能·深度学习·bert
NCU_wander5 天前
RAG Embedding Reranker 、Bert、CLIP&T5
人工智能·深度学习·bert
山顶夕景6 天前
【MLLM】Qwen3-TTS语音生成模型
大模型·语音合成·tts·tokenizer
汗流浃背了吧,老弟!7 天前
基于 BERT 模型实现命名实体识别(NER)任务
人工智能·深度学习·bert
Jack___Xue9 天前
LLM知识随笔(二)--BERT
人工智能·深度学习·bert
java1234_小锋11 天前
【专辑】AI大模型应用开发入门-拥抱Hugging Face与Transformers生态 - 基于BERT文本分类模型微调
人工智能·深度学习·bert
北京地铁1号线12 天前
BERT(Bidirectional Encoder Representations from Transformers)架构详解
人工智能·深度学习·bert