模型蒸馏: 小模型也有“大用“

模型蒸馏(Knowledge Distillation)

模型蒸馏是一种模型压缩技术,核心思想是用大模型(教师)教小模型(学生),让小模型在保持较小规模的同时,尽可能接近大模型的性能。

模型蒸馏分为目标蒸馏和特征蒸馏

目标蒸馏

软硬标签

目标蒸馏过程

  • 将 两个损失计算 加权计算后得到总的Loss损失函数,然后更新模型参数
  • 整个过程可以用一个例子说明: 1.5b在 做试卷的题目, 满血 不仅要看1.5b 做的结果 (硬标签) 对不对, 还要看 题目的答题思路 (软标签) 是否正确;

特征蒸馏

  • 类似于做了一个 神经网络层 的关系映射 , 这样就能基本完美符合满血模型的真实思考过程了
相关推荐
东离与糖宝2 小时前
Python 包结构基础:init.py 作用
人工智能
财迅通Ai10 小时前
商业航天概念领涨A股,航天ETF华安(159267.SZ)收盘上涨1.2%
大数据·人工智能·区块链·中国卫星·航天电子
齐齐大魔王10 小时前
智能语音技术(八)
人工智能·语音识别
许彰午10 小时前
零成本搭建RAG智能客服:Ollama + Milvus + DeepSeek全程实战
人工智能·语音识别·llama·milvus
ZPC821010 小时前
自定义action server 接收arm_controller 指令
人工智能·机器人
迷茫的启明星11 小时前
各职业在当前发展阶段,使用AI的舒适区与盲区
大数据·人工智能·职场和发展
Liqiuyue12 小时前
Transformer:现代AI革命背后的核心模型
人工智能·算法·机器学习
桂花饼12 小时前
AI 视频生成:sora-2 模型快速对接指南
人工智能·音视频·sora2·nano banana 2·claude-opus-4-6·gemini 3.1