bert扩充或者缩小词表

在BERT模型中添加自己的词汇(pytorch版) - 知乎

输入

  1. 扩充词表

替换bert词表中的【unused】

  1. 缩小词表

因为要使用预训练的模型,词id不能变,词向量矩阵大小不变

要做的是将减少的那一部分词全部对应为unk,即可

输出

如果是mlm任务,输出也是bert的词表大小。

  1. 扩充词表

(1) 不改变原来的id,直接将**【unused】**换成要补充汉字

(2) bert词表+新词重新排列,在词表中的,使用对应的分类参数初始化,不在的,随机初始化

added_tokens.json 怎么用

  1. 缩小词表

这里可以随机挑选bert中的词,将对应的分类参数拷贝过来即可, 重新安排好

相关推荐
穿过锁扣的风几秒前
从原理到实战:决策树三大算法(ID3、C4.5、CART)深度解析
大数据·深度学习·神经网络·机器学习
2501_947908201 分钟前
2026年如何打造理想的沉浸式声学空间,选择合适的吸顶音响至关重要
大数据·人工智能
deephub3 分钟前
分类数据 EDA 实战:如何发现隐藏的层次结构
人工智能·python·机器学习·数据分析·数据可视化
Godspeed Zhao4 分钟前
从零开始学AI8——机器学习1
人工智能·机器学习
samoyan6 分钟前
agent 开发中,压缩历史信息常用策略
人工智能
海绵宝宝de派小星6 分钟前
图像处理基础概念与常用操作
图像处理·人工智能·ai
@鱼香肉丝没有鱼6 分钟前
Transformer底层原理—Encoder结构
人工智能·深度学习·transformer
发哥来了7 分钟前
主流Sora2相关商用服务公司可靠性对比
大数据·人工智能
张3蜂8 分钟前
身份证识别接口方案
人工智能·python·开源
小真zzz10 分钟前
2026年2月:AI模板生成PPT的深度解析:ChatPPT如何重新定义行业标准
人工智能·powerpoint·ppt·chatppt·aippt