论文阅读——DistilBERT

ArXiv:https://arxiv.org/abs/1910.01108

Train Loss:

DistilBERT:

DistilBERT具有与BERT相同的一般结构,层数减少2倍,移除token类型嵌入和pooler。从老师那里取一层来初始化学生。

The token-type embeddings and the pooler are removed while the number of layers is reduced by a factor of 2. Most of the operations used in the Transformer architecture (linear layer and layer normalisation) are highly optimized in modern linear algebra frameworks。

we initialize the student from the teacher by taking one layer out of two.

大batch,4k,动态mask,去掉NSP

训练数据:和BERT一样

相关推荐
Niuguangshuo1 小时前
深度学习基本模块:Conv2D 二维卷积层
人工智能·深度学习
A尘埃3 小时前
TensorFlow 和 PyTorch两大深度学习框架训练数据,并协作一个电商推荐系统
pytorch·深度学习·tensorflow
西猫雷婶4 小时前
pytorch基本运算-分离计算
人工智能·pytorch·python·深度学习·神经网络·机器学习
程序员miki4 小时前
RNN循环神经网络(一):基础RNN结构、双向RNN
人工智能·pytorch·rnn·深度学习
却道天凉_好个秋5 小时前
深度学习(四):数据集划分
人工智能·深度学习·数据集
AI人工智能+6 小时前
炫光活体检测技术:通过光学技术实现高效、安全的身份验证,有效防御多种伪造手段。
人工智能·深度学习·人脸识别·活体检测
东方佑7 小时前
打破常规:“无注意力”神经网络为何依然有效?
人工智能·深度学习·神经网络
Francek Chen7 小时前
【深度学习计算机视觉】03:目标检测和边界框
人工智能·pytorch·深度学习·目标检测·计算机视觉·边界框
九章云极AladdinEdu7 小时前
AI集群全链路监控:从GPU微架构指标到业务Metric关联
人工智能·pytorch·深度学习·架构·开源·gpu算力
惯导马工7 小时前
【论文导读】IDOL: Inertial Deep Orientation-Estimation and Localization
深度学习·算法