bert扩充或者缩小词表

在BERT模型中添加自己的词汇(pytorch版) - 知乎

输入

  1. 扩充词表

替换bert词表中的【unused】

  1. 缩小词表

因为要使用预训练的模型,词id不能变,词向量矩阵大小不变

要做的是将减少的那一部分词全部对应为unk,即可

输出

如果是mlm任务,输出也是bert的词表大小。

  1. 扩充词表

(1) 不改变原来的id,直接将**【unused】**换成要补充汉字

(2) bert词表+新词重新排列,在词表中的,使用对应的分类参数初始化,不在的,随机初始化

added_tokens.json 怎么用

  1. 缩小词表

这里可以随机挑选bert中的词,将对应的分类参数拷贝过来即可, 重新安排好

相关推荐
Allenlzcoder2 分钟前
掌握机器学习算法及其关键超参数
人工智能·机器学习·超参数
LaughingZhu3 分钟前
Product Hunt 每日热榜 | 2025-10-26
人工智能·经验分享·搜索引擎·产品运营
2401_841495644 分钟前
【自然语言处理】Transformer模型
人工智能·python·深度学习·算法·语言模型·自然语言处理·transformer
KG_LLM图谱增强大模型4 分钟前
[ICAIS2025]探索LLM驱动的知识图谱构建:技术机制、方法对比与未来方向
人工智能·知识图谱·graphrag·知识图谱增强大模型
CH_Qing5 分钟前
【ROS2】驱动开发-雷达篇
人工智能·ros2·1024程序员节
孤廖5 分钟前
面试官问 Linux 编译调试?gcc 编译流程 + gdb 断点调试 + git 版本控制,连 Makefile 都标好了
linux·服务器·c++·人工智能·git·算法·github
星期天要睡觉13 分钟前
什么是提示词(Prompt),提示词类型、结构解析
人工智能·语言模型
深度学习lover21 分钟前
<数据集>yolo煤矿安全帽识别数据集<目标检测>
人工智能·python·深度学习·yolo·目标检测·计算机视觉·煤矿安全帽识别
前端双越老师30 分钟前
建议应届毕业生不要再做前端开发了
人工智能·面试·ai编程
aneasystone本尊34 分钟前
学习 Dify 的工具系统
人工智能