Dataset Distillation with Attention Labels for Fine-tuning BERT

文章使用了DD更新的方式,就是先使用蒸馏数据集训练一个模型,然后计算真实数据在这个模型上的损失,更新蒸馏数据集。

文章的做法是:在训练蒸馏数据集网络时,加入了attention损失

这时候生成数据集不仅仅包含原始数据xy,还包含了a,这是attention模块的输出,作者只取了[CSL]模块的输出。

之后使用蒸馏数据集训练模型时,不仅需要x,y的预测损失,还需要加入[cls]的损失。

相关推荐
我的青春不太冷23 分钟前
【探索篇】探索部署离线AI在Android的实际体验
android·人工智能·经验分享·科技·架构
MYT_flyflyfly31 分钟前
计算机视觉-边缘检测
人工智能·计算机视觉
破晓之翼1 小时前
司库建设-融资需求分析与计划制定
大数据·人工智能·信息可视化
冰糖小新新1 小时前
ELF2开发板(飞凌嵌入式)搭建深度学习环境部署(RKNN环境部署)
人工智能·深度学习
MichaelIp2 小时前
大模型高级工程师实践 - 将课程内容转为音频
人工智能·gpt·ai·语言模型·自然语言处理·aigc·音视频
慕容木木2 小时前
本地部署最强人工智能服务:方案(一)Chatbox+硅基流动(满血DeepSeek R1)
人工智能·华为云·deepseek·硅基流动·chatbox
弥树子2 小时前
使用 PaddlePaddle 实现逻辑回归:从训练到模型保存与加载
人工智能·逻辑回归·paddlepaddle
倔强的石头1063 小时前
DeepSeek横空出世,AI格局或将改写?
人工智能·aigc
Anlici3 小时前
强势DeepSeek——三种使用方式+推理询问指令😋
前端·人工智能·架构
MichaelIp4 小时前
大模型高级工程师实践 - 将课程内容转为视频
人工智能·python·自然语言处理·langchain·prompt·aigc·音视频