BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

复制代码
[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
陈天伟教授5 天前
人工智能应用- 预测化学反应:08. 基于 BERT 的化学反应分类
人工智能·深度学习·bert
陈天伟教授7 天前
人工智能应用- 预测化学反应:06. BERT 模型简介
人工智能·深度学习·机器学习·自然语言处理·bert·推荐算法
一个努力编程人8 天前
NLP 领域————BERT算法
人工智能·自然语言处理·bert
好家伙VCC16 天前
# BERT在中文文本分类中的实战优化:从模型微调到部署全流程在自然语言处理(NL
java·python·自然语言处理·分类·bert
Quintus五等升18 天前
深度学习自用笔记
人工智能·笔记·深度学习·学习·机器学习·bert·numpy
码说AI19 天前
核心知识点总结(BERT-tiny 微调 + 推理全流程)
人工智能·深度学习·bert
民乐团扒谱机19 天前
【微科普】救命!做NLP必看!BERT到底是啥?吃透这篇,面试/项目直接封神
人工智能·自然语言处理·bert
AI资源库19 天前
解构嵌入模型之王:All-MiniLM-L6-v2 的文件树解密、蒸馏机制与工业级应用生态
langchain·nlp·bert·embedding·hugging face·fine-tuning·ai agent
得一录22 天前
BERT的预训练模型介绍
人工智能·深度学习·bert
人工不智能57723 天前
拆解 BERT:Output 中的 Hidden States 到底藏了什么秘密?
人工智能·深度学习·bert