BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
HPC_fac130520678167 天前
深度学习模型应用场景全解析:CNN、Transformer、BERT、RNN与GAN
rnn·深度学习·机器学习·数据挖掘·cnn·bert·transformer
桥苯环萘我老婆7 天前
【文本】词嵌入经典模型:从one-hot到BERT
人工智能·深度学习·bert
cpuCode9 天前
BERT 大模型
人工智能·深度学习·ai·自然语言处理·大模型·llm·bert
小馒头学python12 天前
蓝耘云智算|使用 Deepseek R1 模型优化 BERT 在 NLP 任务中的表现
服务器·开发语言·人工智能·python·深度学习·自然语言处理·bert
WXLJZ_LHD14 天前
BERT文本分类(PyTorch和Transformers)畅用七个模型架构
pytorch·自然语言处理·分类·bert
xiao-chong14 天前
GPT和BERT
gpt·自然语言处理·bert
纠结哥_Shrek1 个月前
pytorch基于 Transformer 预训练模型的方法实现词嵌入(tiansz/bert-base-chinese)
pytorch·bert·transformer
datamonday1 个月前
[EAI-023] FAST: Efficient Action Tokenization for Vision-Language-Action Models
tokenizer·具身智能·vla·vlm·pi0
L~river1 个月前
Transfoemr的解码器(Decoder)与分词技术
llm·nlp·transformer·tokenizer·datawhale·decode·tokens
珊珊而川1 个月前
BERT和Transformer模型有什么区别
人工智能·bert·transformer