论文阅读——DistilBERT

ArXiv:https://arxiv.org/abs/1910.01108

Train Loss:

DistilBERT:

DistilBERT具有与BERT相同的一般结构,层数减少2倍,移除token类型嵌入和pooler。从老师那里取一层来初始化学生。

The token-type embeddings and the pooler are removed while the number of layers is reduced by a factor of 2. Most of the operations used in the Transformer architecture (linear layer and layer normalisation) are highly optimized in modern linear algebra frameworks。

we initialize the student from the teacher by taking one layer out of two.

大batch,4k,动态mask,去掉NSP

训练数据:和BERT一样

相关推荐
tokepson8 分钟前
反向传播
深度学习·算法·ai·反向传播
咕噜船长8 分钟前
使用Qwen3-VL模型批量标注视频内容(视频理解)
人工智能·pytorch·深度学习·音视频·视频
智驱力人工智能19 分钟前
森林防火无人机火焰监测系统 构建“天空地”一体化智能防火体系 无人机火焰检测,支持红色火焰检测 城市高层建筑无人机火焰识别
人工智能·深度学习·opencv·算法·目标检测·无人机·边缘计算
Coovally AI模型快速验证22 分钟前
无人机低空视觉数据集全景解读:从单机感知到具身智能的跨
人工智能·深度学习·目标检测·机器学习·自动驾驶·无人机
Echo_NGC22371 小时前
【传统JSCC+Deep JSCC】联合信源信道编码完全指南
人工智能·python·深度学习·神经网络·conda·无人机·jscc
其美杰布-富贵-李1 小时前
数据清理与特征工程完整指南
笔记·深度学习·特征工程·训练·数据清理
LDG_AGI1 小时前
【推荐系统】深度学习训练框架(十九):TorchRec之DistributedModelParallel
人工智能·深度学习·机器学习·推荐算法
小陈phd1 小时前
大语言模型实战(二)——Transformer网络架构解读
人工智能·深度学习·transformer
LDG_AGI2 小时前
【推荐系统】深度学习训练框架(十七):TorchRec之KeyedJaggedTensor
人工智能·pytorch·深度学习·机器学习·数据挖掘·embedding
CoovallyAIHub2 小时前
从电影特效到体育科学,运动追踪只能靠“人眼”吗?
深度学习·算法·计算机视觉