Dataset Distillation with Attention Labels for Fine-tuning BERT

文章使用了DD更新的方式,就是先使用蒸馏数据集训练一个模型,然后计算真实数据在这个模型上的损失,更新蒸馏数据集。

文章的做法是:在训练蒸馏数据集网络时,加入了attention损失

这时候生成数据集不仅仅包含原始数据xy,还包含了a,这是attention模块的输出,作者只取了[CSL]模块的输出。

之后使用蒸馏数据集训练模型时,不仅需要x,y的预测损失,还需要加入[cls]的损失。

相关推荐
却道天凉_好个秋44 分钟前
计算机视觉(六):腐蚀操作
人工智能·opencv·计算机视觉
天上的光1 小时前
机器学习——损失函数
人工智能·机器学习
SHIPKING3931 小时前
【机器学习&深度学习】LLM:在检索与重排序中的适用场景
人工智能·深度学习·机器学习·llm
THMAIL1 小时前
机器学习从入门到精通 - 降维艺术:PCA与t-SNE带你玩转高维数据可视化
人工智能·python·决策树·随机森林·机器学习·分类·bootstrap
金融Tech趋势派1 小时前
企业微信AI在银行落地的3个实用场景:智能机器人、搜索、文档的具体用法
人工智能·机器人·企业微信
AiTop1002 小时前
腾讯混元翻译模型Hunyuan-MT-7B开源:小参数量大能量,获得30项国际冠军
人工智能·ai·自然语言处理·aigc·机器翻译
品牌AI前线2 小时前
AI生成内容的版权迷局:GPT-4输出的“创意”版权风险与规避之道
人工智能·深度学习·机器学习
golang学习记2 小时前
GPT-5 正式发布:把一个“博士团队”装进手机,AI 新时代开启
人工智能·gpt
l1t2 小时前
利用美团longcat.ai编写的C语言支持指定压缩算法通用ZIP压缩程序
c语言·开发语言·人工智能·算法·zip·压缩