技术栈

算法蒸馏

我不是小upper
4 小时前
人工智能·算法·自然语言处理·llm·算法蒸馏
模型蒸馏(Distillation):原理、算法、应用如今,大规模机器学习和深度学习模型正变得越来越普遍,最典型的例子就是 GPT-3—— 它的训练基于足足 570GB 的文本数据,模型内部包含的参数更是多达 1750 亿个。这样的规模意味着模型能够从海量数据中学习到更丰富的模式,从而在很多任务上达到顶尖性能。但凡事有利有弊,训练出这样的大型模型固然能推高性能上限,可真要把它们用起来,尤其是部署到手机、智能手表、工业传感器这些边缘设备上时,麻烦就来了。这些设备往往算力有限、内存不大,还可能受限于电池容量,根本撑不起大型模型的运行需求,光是加载模型可能就要花上