【机器学习】Teacher-Student框架

Teacher-Student Setup是一个经典的机器学习框架,包含两个核心角色:

    • 教师模型 (Teacher Model)

      • 通常是一个更大、更强、已经训练好(或正在训练)的模型。
      • 它对问题有很好的理解,性能优秀。
      • 它的作用是为学生提供"指导"。
    • 学生模型 (Student Model)

      • 通常是一个更小、更轻量级的模型。
      • 它的目标是学习教师的能力,最终在性能上接近甚至超越教师(在特定任务上)。
      • 学生不仅从真实标签 (hard labels) 中学习,还会从教师的输出 (soft labels) 中学习。
  1. 教师如何"教"学生?------ 知识蒸馏 (Knowledge Distillation)

    这是最核心的机制:

    • Hard Labels (硬标签) :原始数据中的正确答案,比如图片是"猫",标签就是 [0, 1, 0]
    • Soft Labels (软标签) :教师模型输出的概率分布。例如,对于一张猫的图片,教师可能输出 [0.05 (狗), 0.9 (猫), 0.05 (虎)]。这个分布包含了教师的"思考过程"------它知道这张图非常像猫 ,但也有一点点像狗和虎
    • 学习过程 :学生模型的损失函数(Loss Function)通常由两部分组成:
      1. 一部分是与真实标签计算的损失(如交叉熵)。
      2. 另一部分是与教师的软标签计算的损失,目标是让学生的输出分布与教师的输出分布尽可能相似。
相关推荐
码途漫谈6 小时前
Easy-Vibe开发篇阅读笔记(二)——前端开发之Figma与MasterGo入门
人工智能·笔记·ai·开源·ai编程·figma
Jmayday6 小时前
Pytorch:CNN理论基础
人工智能·pytorch·cnn
阿瑞说项目管理6 小时前
2026 智造升级:制造企业 Agent 从 0 到 1 落地指南,五大场景拆解实战路径
人工智能·agent·智能体·企业级ai
Mr_sst6 小时前
infra-ai模块宏观设计解析:业务与模型之间的中间层核心架构
大数据·人工智能·ai·llama
Slow菜鸟6 小时前
Codex CLI 教程(五)| AI 驱动项目从零到一:面向 Java 全栈工程师打造个人 ECC(V2版)
java·开发语言·人工智能
superior tigre6 小时前
78 子集
算法·leetcode·深度优先·回溯
一碗白开水一6 小时前
【论文解读】VMamba: Visual State Space Model
人工智能·计算机视觉
网安情报局6 小时前
如何选择合适的AI大模型:快快云安全AI大模型聚合平台全解析
人工智能·网络安全·ai大模型
天威?*6 小时前
bitset的数据结构用法
算法·动态规划
yongyoudayee7 小时前
业务语义模型:AI CRM从“能用”到“好用”的技术分水岭
大数据·人工智能