distillation

西西弗Sisyphus

知识蒸馏 - 最小化KL散度与最小化交叉熵是完全等价的flyfish对于两个概率分布 PPP（真实分布）和 QQQ（模型预测分布），KL散度的定义是： DKL(P∥Q)=∑xP(x)log⁡(P(x)Q(x)) D_{KL}(P \| Q) = \sum_{x} P(x) \log\left( \frac{P(x)}{Q(x)} \right) DKL(P∥Q)=x∑P(x)log(Q(x)P(x))

知识蒸馏教程 Knowledge Distillation Tutorial来自于：Knowledge Distillation Tutorial 将大模型蒸馏为小模型，可以节省计算资源，加快推理过程，更高效的运行。

CVPR2024知识蒸馏Distillation论文49篇速通主要内容概述：本文介绍了一种名为3D Paintbrush的技术，该技术可以通过文本描述自动对网格上的局部语义区域进行纹理处理。技术操作直接在网格上，生成的纹理图能融入标准图形管线。同时生成定位图和纹理图，提升质量。此外，使用了级联得分蒸馏（CSD）来增强纹理细节和分辨率。

论文笔记--Distilling the Knowledge in a Neural Network文章提出了一种将大模型压缩的新的思路：蒸馏distillation。通过蒸馏，可以将很大的模型压缩为轻量级的模型，从而提升推理阶段的速率。

我是有底线的