bert扩充或者缩小词表

在BERT模型中添加自己的词汇(pytorch版) - 知乎

输入

  1. 扩充词表

替换bert词表中的【unused】

  1. 缩小词表

因为要使用预训练的模型,词id不能变,词向量矩阵大小不变

要做的是将减少的那一部分词全部对应为unk,即可

输出

如果是mlm任务,输出也是bert的词表大小。

  1. 扩充词表

(1) 不改变原来的id,直接将**【unused】**换成要补充汉字

(2) bert词表+新词重新排列,在词表中的,使用对应的分类参数初始化,不在的,随机初始化

added_tokens.json 怎么用

  1. 缩小词表

这里可以随机挑选bert中的词,将对应的分类参数拷贝过来即可, 重新安排好

相关推荐
莫彩3 分钟前
【大模型论文阅读】2503.01821_On the Power of Context-Enhanced Learning in LLMs
论文阅读·人工智能·语言模型
hhhh明12 分钟前
【调试Bug】网络在训练中输出NaN
人工智能·算法
里昆23 分钟前
【AI】Jupyterlab中数据集的位置和程序和Pycharm中的区别
人工智能·学习
WSSWWWSSW31 分钟前
基于模拟的流程为灵巧机器人定制训练数据
人工智能·chatgpt·机器人
大视码垛机35 分钟前
协作机器人掀起工厂革命:码垛场景如何用数据重塑制造业命脉?
大数据·数据库·人工智能
呆头鹅AI工作室37 分钟前
[2025CVPR-图象分类方向]SPARC:用于视觉语言模型中零样本多标签识别的分数提示和自适应融合
图像处理·人工智能·python·深度学习·神经网络·计算机视觉·语言模型
_abab38 分钟前
图书推荐-由浅入深的大模型构建《从零构建大模型》
人工智能·语言模型·自然语言处理
初恋叫萱萱39 分钟前
Kimi K2 大语言模型技术特性与应用实践分析
人工智能·语言模型·自然语言处理
居然JuRan1 小时前
RAG 技术落地:从文档处理到模型输出,细节决定大模型应用效果
人工智能
钉钉开发者社区1 小时前
AI开放课堂:钉钉MCP开发实战
人工智能·钉钉