论文阅读——DistilBERT

ArXiv:https://arxiv.org/abs/1910.01108

Train Loss:

DistilBERT:

DistilBERT具有与BERT相同的一般结构,层数减少2倍,移除token类型嵌入和pooler。从老师那里取一层来初始化学生。

The token-type embeddings and the pooler are removed while the number of layers is reduced by a factor of 2. Most of the operations used in the Transformer architecture (linear layer and layer normalisation) are highly optimized in modern linear algebra frameworks。

we initialize the student from the teacher by taking one layer out of two.

大batch,4k,动态mask,去掉NSP

训练数据:和BERT一样

相关推荐
小徐xxx3 小时前
Mamba架构讲解
深度学习·mamba·学习记录
koo3644 小时前
pytorch深度学习笔记
pytorch·笔记·深度学习
java1234_小锋6 小时前
基于Python深度学习的车辆车牌识别系统(PyTorch2卷积神经网络CNN+OpenCV4实现)视频教程 - 裁剪和矫正车牌
python·深度学习·cnn·车牌识别
koo3646 小时前
pytorch深度学习笔记1
pytorch·笔记·深度学习
慕ゞ笙7 小时前
2025年Ubuntu24.04系统安装以及深度学习环境配置
人工智能·深度学习
java1234_小锋7 小时前
基于Python深度学习的车辆车牌识别系统(PyTorch2卷积神经网络CNN+OpenCV4实现)视频教程 - 车牌矩阵定位
python·深度学习·cnn·车牌识别
_codemonster10 小时前
深度学习实战(基于pytroch)系列(三十六)循环神经网络的pytorch简洁实现
pytorch·rnn·深度学习
自然语10 小时前
人工智能之数字生命-学习的过程
数据结构·人工智能·深度学习·学习·算法
Yuezero_10 小时前
Research Intern面试(一)——手敲LLM快速复习
pytorch·深度学习·算法
Coding茶水间11 小时前
基于深度学习的火焰检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·计算机视觉