Bert各种变体——RoBERTA/ALBERT/DistillBert

RoBERTa

  1. 会重复一个语句10次,然后每次都mask不同的15%token。
  2. 丢弃了NSP任务,论文指出NSP任务有时甚至会损害性能。
  3. 使用了BPE

ALBERT

1. 跨层参数共享

可以共享多头注意力层的参数,或者前馈网络层的参数,或者全部共享。

实验结果发现,共享注意力层基本没有性能损失。

2. 词向量因式分解:

将词汇表改成两个矩阵乘。

3. 句子顺序预测

加入句子顺序预测任务,代替NSP任务。句子预测分为正序还是倒序。

DistillBERT


1. 有监督损失:

MASK\]对应的输出的损失 ### 2. 蒸馏损失 使用teacher模型的概率作为指导信号,也是交叉熵,但是此时是软标签。 ### 3. 词向量余弦函数 计算隐含层,教师模型和学生模型的向量余弦距离。

相关推荐
在钱塘江16 分钟前
LangGraph构建Ai智能体-2-超简单智能体
人工智能·python
苹果薯条35 分钟前
动手学习深度学习-相关数学知识
python·深度学习·机器学习·矩阵·numpy·反向传播·计算图
我就是全世界41 分钟前
AI智能体的安全困境:防护机制与伦理平衡的艺术
人工智能·安全
KevinZhang135791 小时前
ShadowAI 支持二维表格数据生成了
人工智能·agent·ai编程
软件测试-阿涛1 小时前
2025年大语言模型与多模态生成工具全景指南(V2.0)
大数据·图像处理·人工智能·语言模型·视频
POLOAPI1 小时前
亚马逊Kiro强势挑战Cursor霸主地位,AI IDE大战谁能笑到最后?
人工智能·cursor
思绪漂移1 小时前
从博客到播客:文本转音频的全流程技术点
人工智能·音频·腾讯云·信息传播
Fuliy962 小时前
【数字图像处理系列笔记】Ch04:灰度变换与空间域图像增强(2)
图像处理·人工智能·笔记·计算机视觉·数字图像处理
ALLMHUB2 小时前
【附API无限制使用方法】Claude Opus 4.1正式上线:智能编程助手的新里程碑
人工智能
老周聊大模型2 小时前
让AI对话像流水般自然:深入大模型Streaming技术核心源码
人工智能·机器学习·程序员