BERT tokenizer 增加全角标点符号

bert 的词表,哪怕是 bert-base-chinese,对中文全角标点的支持不是很好

py 复制代码
from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说:"你是厕所大灯笼------找'屎'。"我无语了......")
"""
['小',
 '明',
 '说',
 ':',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""

因此在微调bert时,需要在vocab.txt 文件里把这些标点加上。直接替换 unused token 即可

复制代码
[PAD]
...
---
"
"
'
'
[unused7]
[unused8]
[unused9]
[unused10]
...
相关推荐
旅僧17 天前
Bert理论讲解
人工智能·深度学习·bert
王小王-12318 天前
基于深度学习的景区口碑情感分析可视化系统
人工智能·深度学习·bert·情感分析·关键词提取·主题分析·景区评论分析
me83221 天前
【AI面试】小白理解大模型:仅编码器(BERT类)、仅解码器(GPT类)和完整的编码器-解码器架构各有什么优缺点?
人工智能·gpt·ai·bert
kishu_iOS&AI22 天前
LLM —— 基础知识(Bert&GPT&T5)浅析
人工智能·gpt·bert
星川皆无恙23 天前
基于BERT+LSTM+CRF与知识图谱的医疗智能问答系统实战:Neo4j图数据库+实体识别+意图分析完整项目
数据库·人工智能·深度学习·bert·lstm·知识图谱·neo4j
毕竟是shy哥24 天前
基于提示引导适配器的实体级对齐遥感图文检索
人工智能·学习·bert·transformer
happyprince25 天前
17-Hugging Face Transformers之BERT 案例详解:Transformers 框架全模块串联
人工智能·深度学习·bert
中科院提名者1 个月前
BERT 模型的运行机制及DistilBERT 的蒸馏压缩过程
人工智能·深度学习·bert
z小猫不吃鱼1 个月前
05 Transformer Encoder 详解:BERT 为什么使用 Encoder?
深度学习·bert·transformer
kcuwu.1 个月前
BERT文本分类完整实战指南
人工智能·分类·bert