RoBERTa
- 会重复一个语句10次,然后每次都mask不同的15%token。
- 丢弃了NSP任务,论文指出NSP任务有时甚至会损害性能。
- 使用了BPE
ALBERT
1. 跨层参数共享
可以共享多头注意力层的参数,或者前馈网络层的参数,或者全部共享。
实验结果发现,共享注意力层基本没有性能损失。
2. 词向量因式分解:
将词汇表改成两个矩阵乘。
3. 句子顺序预测
加入句子顺序预测任务,代替NSP任务。句子预测分为正序还是倒序。
DistillBERT
1. 有监督损失:
[MASK]对应的输出的损失
2. 蒸馏损失
使用teacher模型的概率作为指导信号,也是交叉熵,但是此时是软标签。
3. 词向量余弦函数
计算隐含层,教师模型和学生模型的向量余弦距离。