算法蒸馏

我不是小upper

模型蒸馏(Distillation)：原理、算法、应用如今，大规模机器学习和深度学习模型正变得越来越普遍，最典型的例子就是 GPT-3—— 它的训练基于足足 570GB 的文本数据，模型内部包含的参数更是多达 1750 亿个。这样的规模意味着模型能够从海量数据中学习到更丰富的模式，从而在很多任务上达到顶尖性能。但凡事有利有弊，训练出这样的大型模型固然能推高性能上限，可真要把它们用起来，尤其是部署到手机、智能手表、工业传感器这些边缘设备上时，麻烦就来了。这些设备往往算力有限、内存不大，还可能受限于电池容量，根本撑不起大型模型的运行需求，光是加载模型可能就要花上

我是有底线的