BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

复制代码
[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
AI新兵2 天前
AI大事记13:GPT 与 BERT 的范式之争(上)
人工智能·gpt·bert
deephub2 天前
深入BERT内核:用数学解密掩码语言模型的工作原理
人工智能·深度学习·语言模型·bert·transformer
PKNLP2 天前
BERT系列模型
人工智能·深度学习·bert
来酱何人2 天前
实时NLP数据处理:流数据的清洗、特征提取与模型推理适配
人工智能·深度学习·分类·nlp·bert
空白到白2 天前
BERT,GPT,ELMO模型对比
人工智能·gpt·自然语言处理·bert
空白到白2 天前
BERT-微调任务
人工智能·自然语言处理·bert
来酱何人5 天前
低资源NLP数据处理:少样本/零样本场景下数据增强与迁移学习结合方案
人工智能·深度学习·分类·nlp·bert
来酱何人7 天前
机器翻译数据处理核心技术:从语料到模型的质量管控链路
人工智能·分类·nlp·bert·机器翻译
闲看云起9 天前
Bert:从“读不懂上下文”的AI,到真正理解语言
论文阅读·人工智能·深度学习·语言模型·自然语言处理·bert
一车小面包10 天前
BERT 中文外卖评价情感分析项目
人工智能·深度学习·bert