BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

复制代码
[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
Hali_Botebie2 天前
【蒸馏】Tinybert:Distilling BERT for natural language understanding.
人工智能·深度学习·bert
Hali_Botebie2 天前
【量化】Q-bert: Hessian based ultra low precision quantization of bert.
人工智能·深度学习·bert
Hali_Botebie2 天前
【量化】I-BERT: Integer-only BERT Quantization
人工智能·深度学习·bert
沪漂阿龙7 天前
面试题:文本表示方法详解——One-hot、Word2Vec、上下文表示、BERT词向量全解析(NLP基础高频考点)
人工智能·神经网络·自然语言处理·bert·word2vec
小何code7 天前
人工智能【第24篇】BERT模型详解:预训练语言模型的里程碑
自然语言处理·bert·transformer·预训练模型
小何code8 天前
人工智能【第23篇】Transformer模型详解:Attention Is All You Need
深度学习·bert·transformer·注意力机制
輕華11 天前
Transformer架构深度解析——从Attention到BERT的基石
深度学习·bert·transformer
Westward-sun.12 天前
BERT 模型深度解析:从 Transformer Encoder 到预训练语言理解模型
人工智能·bert·transformer
HXR_plume20 天前
【论文精读】生成式预训练之BART
人工智能·gpt·bert
神仙别闹21 天前
基于 Python 实现 BERT 的情感分析模型
开发语言·python·bert