bert扩充或者缩小词表

在BERT模型中添加自己的词汇(pytorch版) - 知乎

输入

  1. 扩充词表

替换bert词表中的【unused】

  1. 缩小词表

因为要使用预训练的模型,词id不能变,词向量矩阵大小不变

要做的是将减少的那一部分词全部对应为unk,即可

输出

如果是mlm任务,输出也是bert的词表大小。

  1. 扩充词表

(1) 不改变原来的id,直接将**【unused】**换成要补充汉字

(2) bert词表+新词重新排列,在词表中的,使用对应的分类参数初始化,不在的,随机初始化

added_tokens.json 怎么用

  1. 缩小词表

这里可以随机挑选bert中的词,将对应的分类参数拷贝过来即可, 重新安排好

相关推荐
SelectDB3 分钟前
Apache Doris 4.0 AI 能力揭秘(一):AI 函数之 LLM 函数介绍
数据库·人工智能·数据分析
倔强青铜三4 分钟前
苦练Python第39天:海象操作符 := 的入门、实战与避坑指南
人工智能·python·面试
飞哥数智坊12 分钟前
GPT-5 初战:我用 Windsurf,体验了“结对编程”式的AI开发
人工智能·windsurf
数据超市36 分钟前
香港数据合集:建筑物、手机基站、POI、职住数据、用地类型
大数据·人工智能·智能手机·数据挖掘·数据分析
视觉语言导航1 小时前
哈工深无人机目标导航新基准!UAV-ON:开放世界空中智能体目标导向导航基准测试
人工智能·深度学习·无人机·具身智能
yzx9910131 小时前
AI心理助手开发文档
人工智能·深度学习·机器学习
图灵学术计算机论文辅导1 小时前
论文推荐|迁移学习+多模态特征融合
论文阅读·人工智能·深度学习·计算机网络·算法·计算机视觉·目标跟踪
一百天成为python专家1 小时前
Python循环语句 从入门到精通
开发语言·人工智能·python·opencv·支持向量机·计算机视觉
轻松Ai享生活2 小时前
GitHub Repo 骨架:Makefile + CUDA 入门程序
人工智能
用户5191495848452 小时前
对抗性工程实践:利用AI自动化构建GitHub仓库的虚假提交历史
人工智能·aigc