Bert各种变体——RoBERTA/ALBERT/DistillBert

volcanical2024-12-26 18:44

RoBERTa

会重复一个语句10次，然后每次都mask不同的15%token。
丢弃了NSP任务，论文指出NSP任务有时甚至会损害性能。
使用了BPE

ALBERT

1. 跨层参数共享

可以共享多头注意力层的参数，或者前馈网络层的参数，或者全部共享。

实验结果发现，共享注意力层基本没有性能损失。

2. 词向量因式分解：

将词汇表改成两个矩阵乘。

3. 句子顺序预测

加入句子顺序预测任务，代替NSP任务。句子预测分为正序还是倒序。

DistillBERT

1. 有监督损失：

MASK\]对应的输出的损失 ### 2. 蒸馏损失 使用teacher模型的概率作为指导信号，也是交叉熵，但是此时是软标签。 ### 3. 词向量余弦函数 计算隐含层，教师模型和学生模型的向量余弦距离。

上一篇：Binoculars——分析证实大语言模型生成文本的检测和引用量按学科和国家明确显示了使用偏差的多样性和对内容类型的影响

下一篇：选择FPGA开发，学历是硬性要求吗？

热门推荐

01Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 02全球最强模型Grok4，国内已可免费使用！（附教程）03UV安装并设置国内源 04ChatGPT 5发布日期揭秘：2025年8月上线，多模态推理能力全面升级 05KGG转MP3工具|非KGM文件|解密音频 06腾讯还是太全面了，限时免费！超全CodeBuddy IDE保姆级教程！（附案例）07如何在 Cursor 中继续使用 Claude 08Claude Code 效率实战指南：从入门到精通的实用技巧（附安装教程）09Cursor 终端“卡死/无响应”问题的解法 10NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南