Dataset Distillation with Attention Labels for Fine-tuning BERT

文章使用了DD更新的方式,就是先使用蒸馏数据集训练一个模型,然后计算真实数据在这个模型上的损失,更新蒸馏数据集。

文章的做法是:在训练蒸馏数据集网络时,加入了attention损失

这时候生成数据集不仅仅包含原始数据xy,还包含了a,这是attention模块的输出,作者只取了[CSL]模块的输出。

之后使用蒸馏数据集训练模型时,不仅需要x,y的预测损失,还需要加入[cls]的损失。

相关推荐
CoovallyAIHub5 分钟前
【一周AI风暴】周鸿祎放话“不用AI就裁员”,前谷歌CEO鼓吹对华996血拼!
深度学习·算法·计算机视觉
余衫马10 分钟前
实战指南:RVC 语音转换框架
人工智能·深度学习·ubuntu
说私域17 分钟前
社交媒体与兴趣电商环境下品类创新机会研究——以“开源AI智能名片链动2+1模式S2B2C商城小程序”为例
人工智能·开源·媒体
代码797226 分钟前
【无标题】使用 Playwright 实现跨 Chromium、Firefox、WebKit 浏览器自动化操作
运维·前端·深度学习·华为·自动化
top_designer27 分钟前
还在手动“磨皮”:用AI降噪+智能蒙版,构建商业摄影的自动化后期管线
图像处理·人工智能·自动化·aigc·photoshop·摄影·lightroom
SelectDB技术团队1 小时前
Apache Doris 4.0 AI 能力揭秘(二):为企业级应用而生的 AI 函数设计与实践
数据库·人工智能·apache·olap·mcp
aneasystone本尊1 小时前
梳理 Dify 应用的会话接口
人工智能
Web3&Basketball1 小时前
大语言模型LLM解决AI幻觉方法的深度分析
人工智能·语言模型·自然语言处理
.银河系.1 小时前
9.28 深度学习10
人工智能·深度学习
jie*1 小时前
小杰深度学习(two)——全连接与链式求导
图像处理·人工智能·pytorch·python·深度学习·分类·回归