Dataset Distillation with Attention Labels for Fine-tuning BERT

volcanical2024-12-26 3:07

文章使用了DD更新的方式，就是先使用蒸馏数据集训练一个模型，然后计算真实数据在这个模型上的损失，更新蒸馏数据集。

文章的做法是：在训练蒸馏数据集网络时，加入了attention损失

这时候生成数据集不仅仅包含原始数据x和y，还包含了a，这是attention模块的输出，作者只取了[CSL]模块的输出。

之后使用蒸馏数据集训练模型时，不仅需要x,y的预测损失，还需要加入[cls]的损失。

上一篇：【NLP 17、NLP的基础——分词】

下一篇：最大转矩电流比（MTPA）

热门推荐

01Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 02全球最强模型Grok4，国内已可免费使用！（附教程）03Coze 开源了，送上保姆级私有化部署方案【建议收藏】04扣子开源本地部署教程丨Coze智能体小白喂饭级指南 05KGG转MP3工具|非KGM文件|解密音频 06腾讯还是太全面了，限时免费！超全CodeBuddy IDE保姆级教程！（附案例）0701-开源版COZE-字节 Coze Studio 重磅开源！保姆级本地安装教程，手把手带你体验 08【手把手攻略】国家育儿补贴正式开领！一键算清你能拿多少钱？附补贴领取计算器 09干翻 Typora！MilkUp：完全免费的桌面端 Markdown 编辑器！10coze 开源版本地部署及踩过的坑【喂饭级教程】