Dataset Distillation with Attention Labels for Fine-tuning BERT

文章使用了DD更新的方式,就是先使用蒸馏数据集训练一个模型,然后计算真实数据在这个模型上的损失,更新蒸馏数据集。

文章的做法是:在训练蒸馏数据集网络时,加入了attention损失

这时候生成数据集不仅仅包含原始数据xy,还包含了a,这是attention模块的输出,作者只取了[CSL]模块的输出。

之后使用蒸馏数据集训练模型时,不仅需要x,y的预测损失,还需要加入[cls]的损失。

相关推荐
云卓SKYDROID14 分钟前
无人机避障与目标识别技术分析!
人工智能·无人机·科普·高科技·云卓科技·激光避障
chuangfumao21 分钟前
解读《人工智能指数报告 2025》:洞察 AI 发展新态势
人工智能·搜索引擎·百度
可爱の小公举33 分钟前
自然语言处理(NLP)领域大图
人工智能·自然语言处理
qq_436962181 小时前
AI数据分析的优势分析
人工智能·数据挖掘·数据分析
Vodka~1 小时前
深度学习——数据处理脚本(基于detectron2框架)
人工智能·windows·深度学习
爱的叹息1 小时前
关于 传感器 的详细解析,涵盖定义、分类、工作原理、常见类型、应用领域、技术挑战及未来趋势,结合实例帮助理解其核心概念
人工智能·机器人
恶霸不委屈1 小时前
突破精度极限!基于DeepSeek的无人机航拍图像智能校准系统技术解析
人工智能·python·无人机·deepseek
lixy5792 小时前
深度学习之自动微分
人工智能·python·深度学习
量子位2 小时前
飞猪 AI 意外出圈!邀请码被黄牛倒卖,分分钟搞定机酒预订,堪比专业定制团队
人工智能·llm·aigc