论文阅读——DistilBERT

ArXiv:https://arxiv.org/abs/1910.01108

Train Loss:

DistilBERT:

DistilBERT具有与BERT相同的一般结构,层数减少2倍,移除token类型嵌入和pooler。从老师那里取一层来初始化学生。

The token-type embeddings and the pooler are removed while the number of layers is reduced by a factor of 2. Most of the operations used in the Transformer architecture (linear layer and layer normalisation) are highly optimized in modern linear algebra frameworks。

we initialize the student from the teacher by taking one layer out of two.

大batch,4k,动态mask,去掉NSP

训练数据:和BERT一样

相关推荐
海天一色y17 分钟前
Pycharm(二十)神经网络入门
人工智能·深度学习·神经网络
微信公众号:AI创造财富1 小时前
推荐轻量级文生视频模型(Text-to-Video)
python·深度学习·音视频
神经星星2 小时前
【vLLM 学习】Disaggregated Prefill Lmcache
人工智能·深度学习·机器学习
weixin_453253652 小时前
CNN卷积神经网络实战(1)
人工智能·深度学习·cnn
点云SLAM2 小时前
PyTorch 中mm和bmm函数的使用详解
人工智能·pytorch·python·深度学习·机器学习·矩阵乘法·3d深度学习
import_random5 小时前
[深度学习]工具框架(TensorFlow、PyTorch)和深度学习模型(CNN、RNN、Transformer)之间的关系
深度学习
Jamence5 小时前
多模态大语言模型arxiv论文略读(123)
论文阅读·人工智能·深度学习·语言模型·论文笔记
Xyz_Overlord14 小时前
神经网络基础
人工智能·深度学习·神经网络
zdy126357468821 小时前
python第51天
开发语言·python·深度学习
顾林海1 天前
DeepSeek 技术原理详解
深度学习·llm·deepseek