知识蒸馏

模型蒸馏（Distillation）案例--从DeepSeek-R1-1.5B 到 Qwen-2.5-1.5B 的模型蒸馏DeepSeek-R1-1.5B 到 Qwen-2.5-1.5B 的模型蒸馏（Distillation）

【数据挖掘】知识蒸馏（Knowledge Distillation, KD）知识蒸馏（Knowledge Distillation, KD）是一种模型压缩和知识迁移技术，旨在将大型复杂模型（称为教师模型）中的知识传递给一个较小的模型（称为学生模型），以减少计算成本，同时保持较高的性能。该方法最早由 Hinton 等人在 2015 年提出，已广泛应用于计算机视觉、自然语言处理和深度学习领域中的模型优化任务。

DDK:Distilling Domain Knowledge for Efficient Large Language Models速览方法论不太了解知识蒸馏的可以看这篇文章【KD开山之作】本文的动机是“降低学生模型在各领域和老师模型的差异”。

大模型之路

DeepSeek-R1 如何通过知识蒸馏将推理能力传递给 QwenDeepSeek-R1（深度解析 DeepSeek R1：强化学习与知识蒸馏的协同力量），作为一个通过大规模强化学习训练出的强大推理模型，在数学、编程等推理任务上达到了与OpenAI-o1相当的性能水平。然而，如此强大的模型如何能够在资源受限的设备上运行，成为了一个亟待解决的问题。DeepSeek团队通过创新的知识蒸馏技术，成功地将DeepSeek-R1的推理能力传递给了参数量更小的Qwen系列模型，为AI模型的轻量化部署提供了重要参考。本文将详细探讨这一过程。

practical_sharp

TPAMI 2023：When Object Detection Meets Knowledge Distillation: A Survey目标检测（Object Detection，OD）是计算机视觉中的一项关键任务，多年来涌现出了众多算法和模型。尽管当前 OD 模型的性能有所提升，但它们也变得更加复杂，由于参数规模庞大，在工业应用中并不实用。为解决这一问题，2015 年知识蒸馏（Knowledge Distillation，KD）技术被提出用于图像分类，随后因其能够将复杂教师模型所学知识转移到轻量级学生模型中，而被扩展到其他视觉任务。**本文对近年来基于 KD 的 OD 模型进行了全面综述，旨在为研究人员提供该领域近期进展的概述。**我们

阿里云大数据AI技术

DistilQwen2：通义千问大模型的知识蒸馏实践作者：岳元浩（顾城）、汪诚愚（熊兮）、严俊冰（玖烛）、黄俊（临在）在人工智能快速发展的今天，大语言模型已经成为了人工智能的研究热点。其中，通义千问（Qwen）大模型系列凭借其强大的语言理解和生成能力，吸引了开源社区越来越多的关注。随着这些模型的应用场景不断扩大，如何提高它们的运算效率，降低部署成本，成为了一项重要的课题。知识蒸馏作为一种有效的模型压缩技术，通过将大型模型的知识转移到较小的模型中，实现了在确保性能的前提下，显著降低了所需的计算资源和推理时长，从而使得模型在实际应用中变得更加灵活和高效。

Phoenixtree_DongZhao

ECCV2024 - UNIC：基于多教师蒸馏的通用分类模型ProjectRelative gains using our UNIC encoder distilled from four teachers (DINO, DeiT-III, iBOT, dBOT-ft), over the respective best teacher for each task using a single encoder and no task-specific parameters. All models (UNIC and teachers) are trained on

【博士每天一篇文献-算法】持续学习经典算法之LwF: Learning without forgetting年份：2017 作者：Zhizhong Li，Amazon AWS Rekognition；Derek Hoiem，伊利诺伊大学计算机科学教授会议：IEEE transactions on pattern analysis and machine intelligence 引用量：4325 Li Z, Hoiem D. Learning without forgetting[J]. IEEE transactions on pattern analysis and machine intelligenc

20240621日志：大模型压缩-从闭源大模型蒸馏location：beijing 涉及知识：大模型压缩、知识蒸馏本文提出在一个贝叶斯估计框架内估计闭源语言模型的输出分布，包括先验估计和后验估计。先验估计的目的是通过闭源模型生成的语料库（可能包含模型的粗粒度信息）得到先验分布；后验估计使用代理模型来更新先验分布并生成后验分布。利用这两个分布来进行知识蒸馏。

CVPR2024知识蒸馏Distillation论文49篇速通主要内容概述：本文介绍了一种名为3D Paintbrush的技术，该技术可以通过文本描述自动对网格上的局部语义区域进行纹理处理。技术操作直接在网格上，生成的纹理图能融入标准图形管线。同时生成定位图和纹理图，提升质量。此外，使用了级联得分蒸馏（CSD）来增强纹理细节和分辨率。

行动π技术博客

大模型蒸馏：高效AI的秘诀在人工智能的快速发展中，大模型因其强大的学习能力和广泛的应用场景而备受瞩目。然而，这些模型通常需要大量的计算资源和存储空间，限制了它们在实际应用中的部署。为了解决这一问题，大模型蒸馏技术应运而生，它旨在通过将大模型的知识转移到更小、更高效的模型中，以实现资源优化和性能提升。

论文阅读--Search to DistillStandard Knowledge Distillation (KD) approaches distill the knowledge of a cumbersome teacher model into the parameters of a student model with a pre-defined architecture. However, the knowledge of a neural network, which is represented by the network’s o

论文阅读--A Comprehensive Overhaul of Feature Distillation HeoWe investigate the design aspects of feature distillation methods achieving network compression and propose a novel feature distillation method in which the distillation loss is designed to make a synergy among various aspects: teacher transform, student

论文精读--Pay More Attention To AttentionAttention plays a critical role in human visual experience. Furthermore, it has recently been demonstrated that attention can also play an important role in the context of applying artificial neural networks to a variety of tasks from fields such as compu

文献学习-25-综合学习和适应性教学：用于病理性胶质瘤分级的多模态知识蒸馏Abstract多模态数据（例如病理切片和基因组图谱）的融合可以提供补充信息并有益于神经胶质瘤分级。然而，由于成本高和技术挑战，基因组图谱难以获得，从而限制了多模态诊断的临床应用。在这项工作中，调查了一个现实问题，即在训练期间可以使用配对的病理基因组数据，而只有病理切片可用于推理。针对这一问题，该文提出一种综合学习和适应性教学框架，通过将特权知识从多模态教师转移到病理学学生身上，提高病理分级模型的性能。为了全面学习多模态教师，提出了一种新颖的显著性感知掩蔽（SA-Mask）策略，通过掩蔽最显着的特征来探索

业余小程序猿

知识蒸馏实战代码教学二（代码实战部分）（1）首先我们要先训练出较大模型既teacher模型。（在图中没有出现）（2）再对teacher模型进行蒸馏，此时我们已经有一个训练好的teacher模型，所以我们能很容易知道teacher模型输入特征x之后，预测出来的结果teacher_preds标签。

tinyViT论文笔记论文：https://arxiv.org/abs/2207.10666 GitHub：https://github.com/microsoft/Cream/tree/main/TinyViT

汀、人工智能

TextBrewer:融合并改进了NLP和CV中的多种知识蒸馏技术、提供便捷快速的知识蒸馏框架、提升模型的推理速度，减少内存占用TextBrewer是一个基于PyTorch的、为实现NLP中的知识蒸馏任务而设计的工具包，融合并改进了NLP和CV中的多种知识蒸馏技术，提供便捷快速的知识蒸馏框架，用于以较低的性能损失压缩神经网络模型的大小，提升模型的推理速度，减少内存占用。