大模型知识蒸馏:技术突破与应用范式重构——从DeepSeek创新看AI基础设施演进路径一、知识蒸馏的技术哲学演进 知识蒸馏(Knowledge Distillation)作为模型压缩领域的核心技术突破,其发展轨迹折射出人工智能从"规模崇拜"向"效率优先"的范式转变。传统知识蒸馏框架主要关注概率分布层面的知识迁移,但DeepSeek等前沿项目展示出更复杂的知识萃取机制。最新研究表明,知识传递已从单纯的输出层模仿,发展到注意力模式迁移(Attention Transfer)、隐层特征对齐(Hidden State Alignment)和梯度匹配(Gradient Matching)的多维度协同