论文阅读:2022Decoupled Knowledge Distillation解耦知识蒸馏

SOTA的蒸馏方法往往是基于feature蒸馏的,而基于logit蒸馏的研究被忽视了。为了找到一个新的切入点去分析并提高logit蒸馏,我们将传统的KD分成了两个部分:TCKD和NCKD。实验表明:TCKD在传递和样本难度有关的知识,同时NCKD是KD涨点的主要原因。更重要的是,我们发现了传统KD是一个"高度耦合"的表达式,这种耦合会(1)抑制NCKD的知识传递效率,(2)限制了调整两部分重要性的灵活度。为了解决这两个问题,我们提出了Decoupled Knowledge Distillation(DKD)方法,让TCKD和NCKD可以灵活高效地被使用。在CIFAR-100、ImageNet、MS-COCO上,相比于其他计算较复杂的feature蒸馏方法,我们的DKD可以达到相同甚至更好的性能,并同时拥有更高的计算效率。这篇论文证明了logit蒸馏的巨大潜能,我们希望它可以给进一步的相关研究提供帮助。

相关推荐
CanCanCanedFish19 小时前
Transformer论文阅读笔记:从注意力机制到革命性架构的启示
论文阅读·笔记·transformer
大模型最新论文速读1 天前
06-02 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
Rocky Ding*2 天前
深入浅出完整解析AIGC时代中GAN(Generative Adversarial Network)系列模型核心基础知识(下篇)
论文阅读·人工智能·深度学习·机器学习·aigc·gan·ai-native
chnyi6_ya3 天前
论文阅读笔记|Wan: Open and Advanced Large-Scale Video Generative Models
论文阅读·笔记
chnyi6_ya3 天前
论文阅读:CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
论文阅读·深度学习·transformer
大模型最新论文速读4 天前
SkillOpt:把 skill 文档当成模型权重来训练
论文阅读·人工智能·深度学习·机器学习·自然语言处理
Cloud_Shy6184 天前
解读《Effective Python 3rd Edition》:从练气到老魔(第一章 Item 4 - 6)
android·数据库·论文阅读·python
Rocky Ding*5 天前
一文读懂HiDream-I1稀疏 DiT 图像生成基础模型
论文阅读·人工智能·深度学习·机器学习·ai作画·aigc·ai-native
锅挤5 天前
来一篇儿:《anish into Thin Air: Cross-prompt Universal Adversarial Attacks for SAM2》
论文阅读
大模型最新论文速读5 天前
05-29 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理