论文阅读——DistilBERT

ArXiv:https://arxiv.org/abs/1910.01108

Train Loss:

DistilBERT:

DistilBERT具有与BERT相同的一般结构,层数减少2倍,移除token类型嵌入和pooler。从老师那里取一层来初始化学生。

The token-type embeddings and the pooler are removed while the number of layers is reduced by a factor of 2. Most of the operations used in the Transformer architecture (linear layer and layer normalisation) are highly optimized in modern linear algebra frameworks。

we initialize the student from the teacher by taking one layer out of two.

大batch,4k,动态mask,去掉NSP

训练数据:和BERT一样

相关推荐
fyakm13 小时前
RNN的注意力机制:原理与实现(代码示例)
rnn·深度学习·神经网络
Rock_yzh16 小时前
AI学习日记——参数的初始化
人工智能·python·深度学习·学习·机器学习
拆房老料17 小时前
Transformer推理优化全景:从模型架构到硬件底层的深度解析
深度学习·ai·自然语言处理·transformer
byzy19 小时前
【论文笔记】VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving
论文阅读·深度学习·计算机视觉·自动驾驶
动能小子ohhh21 小时前
AI智能体(Agent)大模型入门【6】--编写fasteAPI后端请求接口实现页面聊天
人工智能·python·深度学习·ai编程
拉姆哥的小屋1 天前
深度学习图像分类实战:从零构建ResNet50多类别分类系统
人工智能·深度学习·分类
盼小辉丶1 天前
TensorFlow深度学习实战(39)——机器学习实践指南
深度学习·机器学习·tensorflow
蒋星熠1 天前
反爬虫机制深度解析:从基础防御到高级对抗的完整技术实战
人工智能·pytorch·爬虫·python·深度学习·机器学习·计算机视觉
MYX_3091 天前
第三章 神经网络
人工智能·深度学习·神经网络
PKNLP1 天前
深度学习之神经网络2(Neural Network)
人工智能·深度学习·神经网络