【大模型】Bert变种

油泼辣子多加2025-05-30 10:25

1. RoBERTa（Robustly optimized BERT approach）

核心改动
1. 取消 NSP（Next Sentence Prediction）任务，研究发现 NSP 对多数下游任务贡献有限。
2. 动态遮蔽（dynamic masking）：每个 epoch 重新生成 Mask 掩码，而非一次性固定，从而引入更多样本变体。
3. 更长训练、更大批次：使用更大 batch size（比如 8K--16K tokens）和更多预训练数据。
4. 拼写单位改进：采用基于 bytes 而非字符的 BPE，处理 Unicode 时更鲁棒。
效果：在 GLUE、SQuAD 等基准上显著超过原始 BERT，成为后续多模型竞赛常用基线。

2. ALBERT（A Lite BERT）

核心改动
1. 参数共享：跨层共享 Transformer 参数，大幅减少模型总参数量。
2. Embedding 分离 ：将词向量维度 E E E与隐藏层维度 H H H解耦，通常设定 E ≪ H E \ll H E≪H，减小 Embedding 参数开销。
3. 用 SOP（Sentence Order Prediction）替代 NSP：模型需要判断两句文本是否颠倒，提升句间理解。
效果：在 GLUE、RACE 等多个任务上，以更少参数（如 ALBERT-xxlarge 仅 235M）匹配或超越 BERT-Large 的表现。

3. DistilBERT & TinyBERT（蒸馏版 BERT）

核心改动
- 知识蒸馏（Knowledge Distillation）：用大模型（教师）对小模型（学生）提供软标签，使学生网络尽量拟合教师的输出分布。
- DistilBERT：从 BERT-Base 蒸馏，保留 60% 参数、运行速度提升 ~60%，在 GLUE 上保留 ≈95% 性能。
- TinyBERT：进一蒸馏到更小结构（≈28% 参数），还引入中间层对齐、注意力矩阵对齐等技巧。
效果：适用于资源受限场景（移动端、在线推理），在准确率与效率间取得良好平衡。

4. ELECTRA（Efficiently Learning an Encoder that Classifies Token Replacements Accurately）

核心改动
- 判别式预训练：不再纯掩码预测真实词，而是由小 Generator 模型先生成"伪替换"词，主模型（Discriminator）学习判断每个 token 是否被替换。
- Generator 与 Discriminator 共同训练，模拟 GAN 思想，但更适合文本。
效果：在相同计算预算下，ELECTRA-Small、-Base 在 GLUE、SQuAD 上均超过同规模的 MLM 模型，样本效率更高。

5. DeBERTa（Decoding-enhanced BERT with Disentangled Attention）

核心改动
1. 解耦位置与内容编码：将 token embedding 与 position embedding 保持分离，分别计算 Attention，然后再融合。
2. 相对位置偏置：在 Attention 中引入可学习的相对位置矩阵，而非简单相加。
效果：在 GLUE、SuperGLUE、阅读理解等多项任务上刷新当时最优，多用于大规模研究与基线。

6. SpanBERT（Improving Pre-training by Representing and Predicting Spans）

核心改动
1. 跨度级掩码：一次遮蔽连续的文本 span（平均长 3.8 个 token），而非随机单字或子词，以更好地学习文段内部关联。
2. Span-Boundary Objective (SBO)：利用被遮蔽 span 两端的边界表示，预测整个 span 的内容，而非仅逐字预测。
效果：在抽取式问答（SQuAD 1.1/2.0）、共指消解（OntoNotes）等跨度选择任务上，对比同等大小 BERT-Large 提升数个百分点；在关系抽取、GLUE 等也有溢出式提升。

上一篇：前端面试准备2

下一篇：【论文阅读】《PEACE: Empowering Geologic Map Holistic Understanding with MLLMs》

热门推荐

01GitHub 镜像站点 02UV安装并设置国内源 03《大数据技术原理与应用》实验报告三熟悉HBase常用操作 04综合整理：pdf预览显示：你尝试预览的文件可能对你的计算机有害。如果你信任此文件以及其来源，请打开此文件以看其内容，如何解决以正常预览文件 05BongoCat - 跨平台键盘猫动画工具 06Linux下V2Ray安装配置指南 07npm使用国内淘宝镜像的方法 08NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 09jdk21下载、安装（Windows、Linux、macOS）10GitLab 零基础入门指南：从安装到项目管理全流程