模型蒸馏: 小模型也有“大用“

模型蒸馏(Knowledge Distillation)

模型蒸馏是一种模型压缩技术,核心思想是用大模型(教师)教小模型(学生),让小模型在保持较小规模的同时,尽可能接近大模型的性能。

模型蒸馏分为目标蒸馏和特征蒸馏

目标蒸馏

软硬标签

目标蒸馏过程

  • 将 两个损失计算 加权计算后得到总的Loss损失函数,然后更新模型参数
  • 整个过程可以用一个例子说明: 1.5b在 做试卷的题目, 满血 不仅要看1.5b 做的结果 (硬标签) 对不对, 还要看 题目的答题思路 (软标签) 是否正确;

特征蒸馏

  • 类似于做了一个 神经网络层 的关系映射 , 这样就能基本完美符合满血模型的真实思考过程了
相关推荐
Datakeji20 小时前
2026年AI大模型接口加速站榜单新鲜出炉!五大平台硬核数据全面揭秘
大数据·人工智能
qq_1601448720 小时前
从月薪8K到15K,主管说我胜在“多懂了一层” 我的职场能力补齐日记
人工智能
图解AI系列20 小时前
我打算用 12 天搭一套 AI 客服系统(企业级实战,附源码)
大数据·人工智能
网络工程小王20 小时前
【LCEL 链式调用详解】调用篇-2
java·服务器·前端·数据库·人工智能
BU摆烂会噶20 小时前
【LangGraph】运行时上下文(Runtime Context)
人工智能·python·langchain
一个处女座的程序猿O(∩_∩)O20 小时前
大模型决战2026:从百模大战到空间智能,AI Agent与推理架构的深度实战
人工智能·架构
第七种黄昏20 小时前
用AI一天做出一个完整App:VibeCoding全流程实战记录(小白也能复现)
人工智能
skilllite作者20 小时前
SkillLite 原生系统级沙箱功能代码导览
人工智能·chrome·后端·架构·rust
GISer_Jing20 小时前
AI Agent中游产业链全景拆解:智能体开发的核心生态与技术版图
前端·人工智能·后端