BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

复制代码
[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
J_Xiong01171 天前
【NLUs篇】01:JointBERT:用于联合意图分类和槽位填充的 BERT 模型
分类·bert
海天一色y2 天前
短文本自动分类投递项目
人工智能·深度学习·bert
黑客思维者3 天前
BERT 双向编码器架构在自然语言处理领域的潜力与优势分析
自然语言处理·架构·bert
盼小辉丶4 天前
生成模型实战 | BERT详解与实现
深度学习·语言模型·bert·生成模型
七宝大爷4 天前
Transformer架构变体全景图:从BERT到GPT的演化路径
架构·bert·transformer
cg50178 天前
基于 Bert 基本模型进行 Fine-tuned
人工智能·深度学习·bert
做cv的小昊9 天前
VLM经典论文阅读:【综述】An Introduction to Vision-Language Modeling
论文阅读·人工智能·计算机视觉·语言模型·自然语言处理·bert·transformer
Lian_Ge_Blog9 天前
attention、transform、bert 复习总结 1
bert
极客BIM工作室11 天前
BERT模型中词汇表向量与网络权重:从属关系与不可替代的功能分工
人工智能·自然语言处理·bert
极客BIM工作室12 天前
理清 BERT 中 [CLS] 向量的核心逻辑:训练双向更新与推理作用不矛盾
人工智能·机器学习·bert