Bert各种变体——RoBERTA/ALBERT/DistillBert

RoBERTa

  1. 会重复一个语句10次,然后每次都mask不同的15%token。
  2. 丢弃了NSP任务,论文指出NSP任务有时甚至会损害性能。
  3. 使用了BPE

ALBERT

1. 跨层参数共享

可以共享多头注意力层的参数,或者前馈网络层的参数,或者全部共享。

实验结果发现,共享注意力层基本没有性能损失。

2. 词向量因式分解:

将词汇表改成两个矩阵乘。

3. 句子顺序预测

加入句子顺序预测任务,代替NSP任务。句子预测分为正序还是倒序。

DistillBERT


1. 有监督损失:

MASK\]对应的输出的损失 ### 2. 蒸馏损失 使用teacher模型的概率作为指导信号,也是交叉熵,但是此时是软标签。 ### 3. 词向量余弦函数 计算隐含层,教师模型和学生模型的向量余弦距离。

相关推荐
黑客说13 分钟前
AI驱动剧情,解锁无限可能——AI游戏发展解析
人工智能·游戏
踩着两条虫18 分钟前
AI驱动的Vue3应用开发平台深入探究(十):物料系统之内置组件库
android·前端·vue.js·人工智能·低代码·系统架构·rxjava
小仙女的小稀罕24 分钟前
听不清重要会议录音急疯?这款常见AI工具听脑AI精准转译
开发语言·人工智能·python
reesn30 分钟前
qwen3.5 0.8B纠正任务实践
人工智能·语言模型
实在智能RPA32 分钟前
实在Agent 制造业落地案例:探寻工业大模型从实验室走向车间的实战路径
人工智能·ai
阿酷tony40 分钟前
Nano Banna 提示词:创意超逼真的3D商业风格产品图
人工智能·3d·gemini·图片生成
披着羊皮不是狼1 小时前
MSE、MAE、Binary/Categorical Cross-Entropy、HingeLoss五种损失函数的典型应用场景
人工智能·损失函数
guslegend1 小时前
大模型RAG进阶多格式文档解析
人工智能·大模型
独角鲸网络安全实验室1 小时前
惊魂零点击!OpenClaw漏洞(ClawJacked)突袭,开发者AI Agent遭无声劫持
人工智能·网络安全·数据安全·漏洞·openclaw·clawjacked·cve-2026-25253
嘎嘎嘎嘎降1 小时前
保姆级教程:25个降AI提示词大全,手把手教你去AI味
人工智能·去ai味提示词大全·降ai提示词·降ai指令·deepseek降ai