论文阅读——DistilBERT

ArXiv:https://arxiv.org/abs/1910.01108

Train Loss:

DistilBERT:

DistilBERT具有与BERT相同的一般结构,层数减少2倍,移除token类型嵌入和pooler。从老师那里取一层来初始化学生。

The token-type embeddings and the pooler are removed while the number of layers is reduced by a factor of 2. Most of the operations used in the Transformer architecture (linear layer and layer normalisation) are highly optimized in modern linear algebra frameworks。

we initialize the student from the teacher by taking one layer out of two.

大batch,4k,动态mask,去掉NSP

训练数据:和BERT一样

相关推荐
終不似少年遊*19 分钟前
MindSpore框架学习项目-ResNet药物分类-数据增强
人工智能·深度学习·分类·数据挖掘·华为云·resnet·modelart
Rachelhi42 分钟前
C++.神经网络与深度学习(赶工版)(会二次修改)
c++·深度学习·神经网络
徐行tag1 小时前
深度学习基础
人工智能·深度学习
Mr.Winter`4 小时前
深度强化学习 | 图文详细推导软性演员-评论家SAC算法原理
人工智能·深度学习·神经网络·机器学习·数据挖掘·机器人·强化学习
强盛小灵通专卖员4 小时前
分类分割详细指标说明
人工智能·深度学习·算法·机器学习
沅_Yuan10 小时前
基于小波神经网络(WNN)的回归预测模型【MATLAB】
深度学习·神经网络·matlab·回归·小波神经网络·wnn
视觉语言导航11 小时前
湖南大学3D场景问答最新综述!3D-SQA:3D场景问答助力具身智能场景理解
人工智能·深度学习·具身智能
Hi-Dison11 小时前
神经网络极简入门技术分享
人工智能·深度学习·神经网络
Panesle12 小时前
分布式异步强化学习框架训练32B大模型:INTELLECT-2
人工智能·分布式·深度学习·算法·大模型
契合qht53_shine13 小时前
深度学习 自然语言处理(RNN) day_02
rnn·深度学习·自然语言处理