论文阅读：2022Decoupled Knowledge Distillation解耦知识蒸馏

A_my_*2024-03-05 21:25

SOTA的蒸馏方法往往是基于feature蒸馏的，而基于logit蒸馏的研究被忽视了。为了找到一个新的切入点去分析并提高logit蒸馏，我们将传统的KD分成了两个部分：TCKD和NCKD。实验表明：TCKD在传递和样本难度有关的知识，同时NCKD是KD涨点的主要原因。更重要的是，我们发现了传统KD是一个"高度耦合"的表达式，这种耦合会（1）抑制NCKD的知识传递效率，（2）限制了调整两部分重要性的灵活度。为了解决这两个问题，我们提出了Decoupled Knowledge Distillation（DKD）方法，让TCKD和NCKD可以灵活高效地被使用。在CIFAR-100、ImageNet、MS-COCO上，相比于其他计算较复杂的feature蒸馏方法，我们的DKD可以达到相同甚至更好的性能，并同时拥有更高的计算效率。这篇论文证明了logit蒸馏的巨大潜能，我们希望它可以给进一步的相关研究提供帮助。

上一篇：linux安全--日志服务器建立实验

下一篇：Nuxt 3.9 的七大新功能