BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

复制代码
[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
天地沧海9 天前
GPT、BERT、LLaMA 这些模型类别怎么区分
gpt·bert·llama
庚昀◟12 天前
NLP投满分项目梳理
人工智能·深度学习·自然语言处理·bert·多分类
鹿角片ljp13 天前
ET-BERT 文献逐句精读与深度解析
人工智能·深度学习·bert
weitingfu13 天前
大语言模型架构演进:从BERT到GPT再到Mamba的正确打开方式
人工智能·ai·语言模型·架构·bert·agent·ai编程
weitingfu14 天前
从 BERT 到 GPT 再到 Mamba:LLM 架构的“三国演义“
人工智能·gpt·大模型·bert·mamba·上下文·实战指南
好家伙VCC15 天前
# BERT在中文文本分类中的实战优化:从基础模型到高效部署BERT(Bi
java·人工智能·python·分类·bert
Dxy123931021617 天前
Python基于BERT的上下文纠错详解
开发语言·python·bert
m0_3722570219 天前
bert和LLM训练的时候输入输出的格式是什么有什么区别
人工智能·深度学习·bert
奇思智算20 天前
LLaMA/Bert/扩散模型微调GPU选型及租用指南
人工智能·bert·llama
极光代码工作室21 天前
基于BERT的新闻文本分类系统
深度学习·nlp·bert·文本分类