bert扩充或者缩小词表

在BERT模型中添加自己的词汇(pytorch版) - 知乎

输入

  1. 扩充词表

替换bert词表中的【unused】

  1. 缩小词表

因为要使用预训练的模型,词id不能变,词向量矩阵大小不变

要做的是将减少的那一部分词全部对应为unk,即可

输出

如果是mlm任务,输出也是bert的词表大小。

  1. 扩充词表

(1) 不改变原来的id,直接将**【unused】**换成要补充汉字

(2) bert词表+新词重新排列,在词表中的,使用对应的分类参数初始化,不在的,随机初始化

added_tokens.json 怎么用

  1. 缩小词表

这里可以随机挑选bert中的词,将对应的分类参数拷贝过来即可, 重新安排好

相关推荐
Westward-sun.9 分钟前
OpenCV + dlib 人脸关键点检测学习笔记(68点)
人工智能·笔记·opencv·学习·计算机视觉
SCBAiotAigc17 分钟前
2026.4.13:vim编程简单配置
人工智能·ubuntu·vim·具身智能
飞哥数智坊19 分钟前
全新 SOLO 帮我做 PPT,半小时出稿,效果直接惊艳
人工智能·solo
飞哥数智坊20 分钟前
Gemini-3.1-Pro vs Gemini-3-Flash:效果与花费的真实对比
人工智能·ai编程·gemini
IT大师兄吖21 分钟前
SAM3 提示词 图片分割 ComfyUI 懒人整合包
人工智能
幻风_huanfeng23 分钟前
人工智能之数学基础:内点法和外点法的区别和缺点
人工智能·算法·机器学习·内点法·外点法
luoganttcc25 分钟前
一个 warp 同时 运行 32 个thread 就是 同时 运行 32 core
人工智能
AIData搭子28 分钟前
溯源难题破解:搭建原始文件与向量数据之间的映射关系
人工智能