论文阅读:2022Decoupled Knowledge Distillation解耦知识蒸馏

SOTA的蒸馏方法往往是基于feature蒸馏的,而基于logit蒸馏的研究被忽视了。为了找到一个新的切入点去分析并提高logit蒸馏,我们将传统的KD分成了两个部分:TCKD和NCKD。实验表明:TCKD在传递和样本难度有关的知识,同时NCKD是KD涨点的主要原因。更重要的是,我们发现了传统KD是一个"高度耦合"的表达式,这种耦合会(1)抑制NCKD的知识传递效率,(2)限制了调整两部分重要性的灵活度。为了解决这两个问题,我们提出了Decoupled Knowledge Distillation(DKD)方法,让TCKD和NCKD可以灵活高效地被使用。在CIFAR-100、ImageNet、MS-COCO上,相比于其他计算较复杂的feature蒸馏方法,我们的DKD可以达到相同甚至更好的性能,并同时拥有更高的计算效率。这篇论文证明了logit蒸馏的巨大潜能,我们希望它可以给进一步的相关研究提供帮助。

相关推荐
要努力啊啊啊4 小时前
GaLore:基于梯度低秩投影的大语言模型高效训练方法详解一
论文阅读·人工智能·语言模型·自然语言处理
智绘山河11 小时前
【论文阅读】Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting
论文阅读
xhyu6114 小时前
【论文笔记】Transcoders Find Interpretable LLM Feature Circuits
论文阅读
江木12314 小时前
论文阅读:CLIP:Learning Transferable Visual Models From Natural Language Supervision
论文阅读
大写-凌祁15 小时前
GLIDE论文阅读笔记与DDPM(Diffusion model)的原理推导
论文阅读·人工智能·笔记·python·深度学习·机器学习·计算机视觉
学术-张老师2 天前
PABD 2025:大数据与智慧城市管理的融合之道
大数据·论文阅读·人工智能·智慧城市·论文笔记
浦东新村轱天乐2 天前
π0论文阅读
论文阅读
Chasing Aurora2 天前
Word双栏英文论文排版攻略
论文阅读·word·sci·论文笔记
UQI-LIUWJ2 天前
论文笔记:Towards Explainable Traffic Flow Prediction with Large Language Models
论文阅读·人工智能·语言模型
AustinCyy2 天前
【论文笔记】SecAlign: Defending Against Prompt Injection with Preference Optimization
论文阅读