BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

复制代码
[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
羽星_s12 小时前
文本分类任务Qwen3-0.6B与Bert:实验见解
人工智能·bert·文本分类·ai大模型·qwen3
Code_流苏3 天前
《Python星球日记》 第72天:问答系统与信息检索
python·微调·问答系统·bert·应用场景·基于检索·基于生成
sbc-study4 天前
双向Transformer:BERT(Bidirectional Encoder Representations from Transformers)
深度学习·bert·transformer
layneyao4 天前
AI与自然语言处理(NLP):从BERT到GPT的演进
人工智能·自然语言处理·bert
背太阳的牧羊人5 天前
tokenizer.encode_plus,BERT类模型 和 Sentence-BERT 他们之间的区别与联系
人工智能·深度学习·bert
背太阳的牧羊人6 天前
SemanticSplitterNodeParser 和 Sentence-BERT 的区别和联系是什么
人工智能·深度学习·bert
背太阳的牧羊人7 天前
BERT类模型
人工智能·自然语言处理·bert
背太阳的牧羊人7 天前
[CLS] 向量是 BERT 类模型中一个特别重要的输出向量,它代表整个句子或文本的全局语义信息
人工智能·深度学习·bert
仙人掌_lz7 天前
微调ModernBERT为大型语言模型打造高效“过滤器”
人工智能·python·ai·语言模型·自然语言处理·bert
___Dream9 天前
【TF-BERT】基于张量的融合BERT多模态情感分析
人工智能·深度学习·bert