BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

复制代码
[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
TGITCIC3 天前
BERT与Transformer到底选哪个-下部
人工智能·gpt·大模型·aigc·bert·transformer
Kai HVZ3 天前
《深度学习》——bert框架
人工智能·深度学习·bert
TGITCIC4 天前
BERT与Transformer到底选哪个-上部
人工智能·gpt·大模型·aigc·bert·transformer
xidianjiapei0014 天前
LLM架构解析:词嵌入模型 Word Embeddings(第二部分)—— 从基础原理到实践应用的深度探索
llm·bert·word2vec·elmo·cbow·llm架构·词嵌入模型
阿牛大牛中7 天前
大模型tokenizer重构流程
语言模型·llm·tokenizer·千问
catchtimea9 天前
Transformer、ELMo、GPT、BERT的详细理解
python·gpt·bert·transformer·预训练模型·elmo
2301_764441339 天前
基于BERT的序列到序列(Seq2Seq)模型,生成文本摘要或标题
人工智能·python·深度学习·bert
紫雾凌寒10 天前
什么是量化?BERT 模型压缩的秘密武器
人工智能·深度学习·自然语言处理·bert·模型压缩·量化·quantization
一颗铜豌豆11 天前
BERT文本分类实战----美团外卖评论情绪分类
人工智能·分类·bert