BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

复制代码
[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
Easy数模2 天前
ModernBERT如何突破BERT局限?情感分析全流程解析
人工智能·深度学习·nlp·bert
AI扶我青云志4 天前
bert模型中config.json中所有参数
人工智能·json·bert
AI扶我青云志5 天前
“hidden act“:“gelu“在bert中作用
人工智能·深度学习·bert
小新学习屋6 天前
模型系列(篇一)-Bert
人工智能·深度学习·自然语言处理·大模型·bert
小牛不爱吃糖6 天前
基于bert-lstm对微博评论的情感分析系统设计与实现
python·机器学习·bert·lstm
我爱一条柴ya12 天前
【AI大模型】BERT微调文本分类任务实战
人工智能·pytorch·python·ai·分类·bert·ai编程
学废了wuwu12 天前
【终极指南】ChatGPT/BERT/DeepSeek分词全解析:从理论到中文实战
人工智能·chatgpt·bert
空中湖13 天前
Transformer江湖录 第五章:江湖争锋 - BERT vs GPT
gpt·bert·transformer
大千AI助手13 天前
TinyBERT:知识蒸馏驱动的BERT压缩革命 | 模型小7倍、推理快9倍的轻量化引擎
人工智能·深度学习·机器学习·自然语言处理·bert·蒸馏·tinybert
AI扶我青云志14 天前
BERT系列模型
人工智能·深度学习·bert