蒸馏

西西弗Sisyphus

知识蒸馏 - 最小化KL散度与最小化交叉熵是完全等价的flyfish对于两个概率分布 PPP（真实分布）和 QQQ（模型预测分布），KL散度的定义是： DKL(P∥Q)=∑xP(x)log⁡(P(x)Q(x)) D_{KL}(P \| Q) = \sum_{x} P(x) \log\left( \frac{P(x)}{Q(x)} \right) DKL(P∥Q)=x∑P(x)log(Q(x)P(x))

TinyBERT：知识蒸馏驱动的BERT压缩革命 | 模型小7倍、推理快9倍的轻量化引擎华为与华中科大联合提出的Transformer专用蒸馏框架本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

DeepSeek实战--蒸馏知识蒸馏（Knowledge Distillation）最早由Hinton等人在2015年提出，主要用于压缩模型。

大模型微调与蒸馏的差异性与相似性分析大模型微调在预训练大模型基础上，通过少量标注数据调整参数，使模型适应特定任务需求。核心目标是提升模型在特定领域的性能，例如医疗影像分析或金融预测。该技术聚焦于垂直场景的精度优化，通常需要任务相关的标注数据支持。

【数据挖掘】知识蒸馏（Knowledge Distillation, KD）知识蒸馏（Knowledge Distillation, KD）是一种模型压缩和知识迁移技术，旨在将大型复杂模型（称为教师模型）中的知识传递给一个较小的模型（称为学生模型），以减少计算成本，同时保持较高的性能。该方法最早由 Hinton 等人在 2015 年提出，已广泛应用于计算机视觉、自然语言处理和深度学习领域中的模型优化任务。

Deepseek 模型蒸馏赋范课堂： https://www.bilibili.com/video/BV1qUN8enE4c/

Jackilina_Stone

【论文阅读笔记】浅谈深度学习中的知识蒸馏 | 关系知识蒸馏 | CVPR 2019 | RKD目录一方法1 常规知识蒸馏2 关系知识蒸馏2.1 Distance-wise distillation loss

Jackilina_Stone

【论文阅读笔记】知识蒸馏：一项调查 | CVPR 2021 | 近万字翻译+解释目录1 引言2 知识2.1 Response-Based Knowledge2.2 Feature-Based Knowledge

Jackilina_Stone

【DL】浅谈深度学习中的知识蒸馏 | 输出层知识蒸馏目录一核心概念与背景二输出层知识蒸馏1 教师模型训练2 软标签生成（Soft Targets）3 学生模型训练

知识蒸馏教程 Knowledge Distillation Tutorial来自于：Knowledge Distillation Tutorial 将大模型蒸馏为小模型，可以节省计算资源，加快推理过程，更高效的运行。

深度学习笔记——模型压缩和优化技术（蒸馏、剪枝、量化）本文详细介绍模型训练完成后的压缩和优化技术：蒸馏、剪枝、量化。模型压缩和优化技术是为了在保证模型性能（精度、推理速度等）的前提下，减少模型的体积、降低计算复杂度和内存占用，从而提高模型在资源受限环境中的部署效率。这些技术对于在边缘设备、移动设备等计算资源有限的场景中部署深度学习模型尤为重要。以下是几种常见的模型压缩和优化技术的解释：

扎克伯格说，Llama3-8B还是太大了，量化、剪枝、蒸馏准备上！扎克伯格说，Llama3-8B还是太大了，不适合放到手机中，有什么办法？量化、剪枝、蒸馏，如果你经常关注大语言模型，一定会看到这几个词，单看这几个字，我们很难理解它们都干了些什么，但是这几个词对于现阶段的大语言模型发展特别重要，它们就是将模型缩小的利器。这篇文章就带大家来认识认识它们，理解其中的原理。

神经网络中的量化与蒸馏本文将深入研究深度学习中精简模型的技术：量化和蒸馏深度学习模型，特别是那些具有大量参数的模型，在资源受限环境中的部署几乎是不可能的。所以就出现了两种流行的技术，量化和蒸馏，它们都是可以使模型更加轻量级，而不会对性能造成太大影响。但是它们需要什么，它们又如何比较呢?