Bert各种变体——RoBERTA/ALBERT/DistillBert

RoBERTa

  1. 会重复一个语句10次,然后每次都mask不同的15%token。
  2. 丢弃了NSP任务,论文指出NSP任务有时甚至会损害性能。
  3. 使用了BPE

ALBERT

1. 跨层参数共享

可以共享多头注意力层的参数,或者前馈网络层的参数,或者全部共享。

实验结果发现,共享注意力层基本没有性能损失。

2. 词向量因式分解:

将词汇表改成两个矩阵乘。

3. 句子顺序预测

加入句子顺序预测任务,代替NSP任务。句子预测分为正序还是倒序。

DistillBERT


1. 有监督损失:

[MASK]对应的输出的损失

2. 蒸馏损失

使用teacher模型的概率作为指导信号,也是交叉熵,但是此时是软标签。

3. 词向量余弦函数

计算隐含层,教师模型和学生模型的向量余弦距离。

相关推荐
DO_Community5 分钟前
用不了 Manus ?其实你能用 Llama或DeepSeek 做个自己的 AI Agent
人工智能·机器学习·llama
山北雨夜漫步9 分钟前
机器学习 Day03 Numpy基本使用
人工智能·机器学习
AI技术控10 分钟前
计算机视觉算法实战——昆虫识别检测(主页有源码)
人工智能·算法·计算机视觉
Wis4e40 分钟前
数据挖掘导论——第二章:数据
人工智能·数据挖掘
蜡笔小新星43 分钟前
OpenCV中文路径图片读写终极指南(Python实现)
开发语言·人工智能·python·opencv·计算机视觉
六月的翅膀1 小时前
C++/OpenCV:Mat初始化赋值误区
人工智能·opencv·计算机视觉
好评笔记1 小时前
AIGC视频生成模型:慕尼黑大学、NVIDIA等的Video LDMs模型
人工智能·深度学习·机器学习·计算机视觉·aigc·transformer·面试八股
Francek Chen1 小时前
【现代深度学习技术】卷积神经网络06:卷积神经网络(LeNet)
人工智能·pytorch·深度学习·神经网络·cnn
大势智慧1 小时前
使用模方修模,模型的UV能修改,只出一张图吗?
人工智能·uv·三维建模·实景三维
go54631584651 小时前
复现无人机的项目,项目名称为Evidential Detection and Tracking Collaboration
人工智能