论文阅读——DistilBERT

ArXiv:https://arxiv.org/abs/1910.01108

Train Loss:

DistilBERT:

DistilBERT具有与BERT相同的一般结构,层数减少2倍,移除token类型嵌入和pooler。从老师那里取一层来初始化学生。

The token-type embeddings and the pooler are removed while the number of layers is reduced by a factor of 2. Most of the operations used in the Transformer architecture (linear layer and layer normalisation) are highly optimized in modern linear algebra frameworks。

we initialize the student from the teacher by taking one layer out of two.

大batch,4k,动态mask,去掉NSP

训练数据:和BERT一样

相关推荐
xyz59933 分钟前
ONNX Runtime(ORT) C++ Windows 深度学习模型部署简易教程
人工智能·深度学习
热爱生活的五柒1 小时前
深度学习大幅度提高准确率方法,本人亲测,调参方法,大幅度提升准确率方法(极其重要!!!多次看!0430)
人工智能·深度学习
PNP Robotics2 小时前
领军军者|PNP机器人包文涛:以具身智能定义机器人的“生命直觉”
人工智能·深度学习·学习·机器学习·机器人
Chockong2 小时前
05_yolox_s的后处理截断并导出onnx
深度学习·神经网络
云上码厂2 小时前
2023年之前物理信息神经网络PINN papers
人工智能·深度学习·神经网络
A尘埃3 小时前
深度学习之神经网络简介(FNN+CNN+RNN+LSTM+GRU+GAN+GNN+Transformer)
深度学习·神经网络
纪伊路上盛名在3 小时前
Accurate structure prediction of biomolecular interactions with AlphaFold 3
深度学习·阅读·文献·结构·蛋白质
β添砖java5 小时前
深度学习(11)数值稳定+模型初始化、激活函数
人工智能·深度学习
九成宫5 小时前
动手学深度学习PyTorch版初步安装过程
人工智能·pytorch·深度学习
lwf0061646 小时前
DeepFM 学习日记
深度学习·机器学习