bert扩充或者缩小词表

在BERT模型中添加自己的词汇(pytorch版) - 知乎

输入

  1. 扩充词表

替换bert词表中的【unused】

  1. 缩小词表

因为要使用预训练的模型,词id不能变,词向量矩阵大小不变

要做的是将减少的那一部分词全部对应为unk,即可

输出

如果是mlm任务,输出也是bert的词表大小。

  1. 扩充词表

(1) 不改变原来的id,直接将**【unused】**换成要补充汉字

(2) bert词表+新词重新排列,在词表中的,使用对应的分类参数初始化,不在的,随机初始化

added_tokens.json 怎么用

  1. 缩小词表

这里可以随机挑选bert中的词,将对应的分类参数拷贝过来即可, 重新安排好

相关推荐
IMA小队长7 分钟前
06.概念二:神经网络
人工智能·深度学习·机器学习·transformer
罗西的思考10 分钟前
探秘Transformer系列之(35)--- 大模型量化基础
人工智能·深度学习·机器学习
AI大模型系统化学习12 分钟前
AI产品风向标:从「工具属性」到「认知引擎」的架构跃迁
大数据·人工智能·ai·架构·大模型·ai大模型·大模型学习
拾忆-eleven2 小时前
NLP学习路线图(十六):N-gram模型
人工智能·学习·自然语言处理
编程有点难2 小时前
Python训练打卡Day39
人工智能·python·深度学习
小喵喵生气气2 小时前
Python60日基础学习打卡Day40
人工智能·深度学习·机器学习
广州智造3 小时前
OptiStruct实例:消声器前盖ERP分析(2)RADSND基础理论
数据库·人工智能·算法·机器学习·数学建模·3d·软件构建
爱写代码的小朋友3 小时前
智变与重构:AI 赋能基础教育教学的范式转型研究报告
人工智能·重构
Jet45053 小时前
第100+41步 ChatGPT学习:R语言实现误判病例分析
人工智能·机器学习·chatgpt·deepseek-r1
泯泷3 小时前
Claude 4 重磅来袭:你需要了解的一切
人工智能·算法·llm