BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
青石横刀策马15 小时前
泛读笔记:从Word2Vec到BERT
笔记·bert·word2vec
Sun_Sherry2 天前
NLP:微调BERT进行文本分类
自然语言处理·分类·bert
AI大模型_学习君3 天前
3 种自然语言处理(NLP)技术:RNN、Transformers、BERT
人工智能·自然语言处理·大模型·llm·bert·大语言模型
深度安全实验室5 天前
谷歌-BERT-“bert-base-chinese ”
bert
⊙月5 天前
CMU 10423 Generative AI:lec5(Encoder-only Transformers + 阅读材料Bert, ViT)
人工智能·深度学习·aigc·bert
CodeDevMaster6 天前
基于基础模型BERT与大语言模型ChatGLM3-6B实现文本分类、信息抽取、文本匹配等任务
语言模型·大模型·llm·bert·chatglm3-6b·基础模型
大鸣王潮20247 天前
BERT_
人工智能·深度学习·bert
方大刚2338 天前
【Tools】大模型中的BERT概念
人工智能·深度学习·bert
An_ich8 天前
NLP基础及其代码-BERT系列
人工智能·自然语言处理·bert
愤怒的可乐11 天前
Sentence-BERT实现文本匹配【CoSENT损失】
人工智能·深度学习·bert