技术栈
soft target
Isawany
1 年前
论文阅读
·
蒸馏模型
·
distillation
·
soft target
·
模型压缩
论文笔记--Distilling the Knowledge in a Neural Network
文章提出了一种将大模型压缩的新的思路:蒸馏distillation。通过蒸馏,可以将很大的模型压缩为轻量级的模型,从而提升推理阶段的速率。