论文阅读:2022Decoupled Knowledge Distillation解耦知识蒸馏

SOTA的蒸馏方法往往是基于feature蒸馏的,而基于logit蒸馏的研究被忽视了。为了找到一个新的切入点去分析并提高logit蒸馏,我们将传统的KD分成了两个部分:TCKD和NCKD。实验表明:TCKD在传递和样本难度有关的知识,同时NCKD是KD涨点的主要原因。更重要的是,我们发现了传统KD是一个"高度耦合"的表达式,这种耦合会(1)抑制NCKD的知识传递效率,(2)限制了调整两部分重要性的灵活度。为了解决这两个问题,我们提出了Decoupled Knowledge Distillation(DKD)方法,让TCKD和NCKD可以灵活高效地被使用。在CIFAR-100、ImageNet、MS-COCO上,相比于其他计算较复杂的feature蒸馏方法,我们的DKD可以达到相同甚至更好的性能,并同时拥有更高的计算效率。这篇论文证明了logit蒸馏的巨大潜能,我们希望它可以给进一步的相关研究提供帮助。

相关推荐
Allen_LVyingbo38 分钟前
数智读书笔记系列028 《奇点更近》
论文阅读·笔记
不是吧这都有重名17 小时前
[论文阅读]Transformers without Normalization
论文阅读
踏雪亦无痕17 小时前
论文笔记:Dynamic Spectral Graph Anomaly Detection
论文阅读·深度学习·图论·异常检测
崔高杰18 小时前
LEARNING DYNAMICS OF LLM FINETUNING【论文阅读笔记】
论文阅读·人工智能·语言模型·nlp
往事随风、、20 小时前
DIP支付方式改革下各种疾病医疗费用的影响以及分析方法研究综述
论文阅读·健康医疗·论文笔记
冀晓武1 天前
【论文阅读】RMA: Rapid Motor Adaptation for Legged Robots
论文阅读·神经网络·强化学习·四足机器人
计算机视觉小刘2 天前
Multi-Agent Routing Value Iteration Network(多智能体路由值迭代网络)论文阅读
网络·论文阅读·强化学习·多智能体
计算机视觉小刘2 天前
码率自适应(ABR)相关论文阅读简报2
论文阅读·abr·码率自适应
HollowKnightZ4 天前
论文阅读笔记:Adaptive Multi-Modal Cross-Entropy Loss for Stereo Matching
论文阅读·笔记
RedMery4 天前
论文阅读笔记:Denoising Diffusion Implicit Models (5)
论文阅读·笔记