Dataset Distillation with Attention Labels for Fine-tuning BERT

文章使用了DD更新的方式,就是先使用蒸馏数据集训练一个模型,然后计算真实数据在这个模型上的损失,更新蒸馏数据集。

文章的做法是:在训练蒸馏数据集网络时,加入了attention损失

这时候生成数据集不仅仅包含原始数据xy,还包含了a,这是attention模块的输出,作者只取了[CSL]模块的输出。

之后使用蒸馏数据集训练模型时,不仅需要x,y的预测损失,还需要加入[cls]的损失。

相关推荐
code_pgf几秒前
sVLM在资源受限环境中的应用案例
人工智能·深度学习·架构
灰灰勇闯IT1 分钟前
ops-math 的 ReduceSum:Tensor 归约为什么是计算热点
深度学习
多年小白1 分钟前
复盘】2026年5月21日(周四)
大数据·人工智能·ai·金融·区块链
南屹川1 分钟前
【并发编程】Python异步编程实战:从协程到异步框架
人工智能
BU摆烂会噶2 分钟前
【LangGraph】House_Agent 实战(四):预定流程 —— 中断与人工干预
android·人工智能·python·langchain
AI技术控3 分钟前
LangChain 是什么?从零开始学会 LangChain 的工程实践指南
人工智能·语言模型·自然语言处理·langchain·nlp
陈天伟教授4 分钟前
图解人工智能(32)深度学习前沿
人工智能·深度学习
RSTJ_16254 分钟前
PYTHON+AI LLM DAY FIFITY-TWO
人工智能
Ting-yu4 分钟前
Spring AI Alibaba零基础速成(5) ---- Memory(记忆)
java·人工智能·后端·spring
幂律智能8 分钟前
从AI使用风险到合同智能审查重构企业风控能力
人工智能·重构