技术栈
蒸馏
AI掘金
15 小时前
微调
·
aigc
·
蒸馏
·
ai应用
·
deepseek
·
小模型推理
DeepSeek实战--蒸馏
知识蒸馏(Knowledge Distillation)最早由Hinton等人在2015年提出,主要用于压缩模型。
Panesle
13 天前
人工智能
·
微调
·
蒸馏
大模型微调与蒸馏的差异性与相似性分析
大模型微调 在预训练大模型基础上,通过少量标注数据调整参数,使模型适应特定任务需求。核心目标是提升模型在特定领域的性能,例如医疗影像分析或金融预测。该技术聚焦于垂直场景的精度优化,通常需要任务相关的标注数据支持。
dundunmm
2 个月前
人工智能
·
深度学习
·
数据挖掘
·
模型
·
知识蒸馏
·
蒸馏
【数据挖掘】知识蒸馏(Knowledge Distillation, KD)
知识蒸馏(Knowledge Distillation, KD)是一种模型压缩和知识迁移技术,旨在将大型复杂模型(称为教师模型)中的知识传递给一个较小的模型(称为学生模型),以减少计算成本,同时保持较高的性能。该方法最早由 Hinton 等人在 2015 年提出,已广泛应用于计算机视觉、自然语言处理和深度学习领域中的模型优化任务。
小田_
2 个月前
模型
·
蒸馏
Deepseek 模型蒸馏
赋范课堂: https://www.bilibili.com/video/BV1qUN8enE4c/
Jackilina_Stone
3 个月前
论文阅读
·
深度学习
·
蒸馏
·
rkd
【论文阅读笔记】浅谈深度学习中的知识蒸馏 | 关系知识蒸馏 | CVPR 2019 | RKD
目录一 方法1 常规知识蒸馏2 关系知识蒸馏2.1 Distance-wise distillation loss
Jackilina_Stone
3 个月前
论文阅读
·
人工智能
·
深度学习
·
蒸馏
【论文阅读笔记】知识蒸馏:一项调查 | CVPR 2021 | 近万字翻译+解释
目录1 引言2 知识2.1 Response-Based Knowledge2.2 Feature-Based Knowledge
Jackilina_Stone
3 个月前
人工智能
·
深度学习
·
机器学习
·
蒸馏
【DL】浅谈深度学习中的知识蒸馏 | 输出层知识蒸馏
目录一 核心概念与背景二 输出层知识蒸馏1 教师模型训练2 软标签生成(Soft Targets)3 学生模型训练
Qiming_v
3 个月前
distillation
·
蒸馏
知识蒸馏教程 Knowledge Distillation Tutorial
来自于:Knowledge Distillation Tutorial 将大模型蒸馏为小模型,可以节省计算资源,加快推理过程,更高效的运行。
好评笔记
5 个月前
人工智能
·
深度学习
·
剪枝
·
模型压缩
·
量化
·
蒸馏
·
大模型优化
深度学习笔记——模型压缩和优化技术(蒸馏、剪枝、量化)
本文详细介绍模型训练完成后的压缩和优化技术:蒸馏、剪枝、量化。模型压缩和优化技术是为了在保证模型性能(精度、推理速度等)的前提下,减少模型的体积、降低计算复杂度和内存占用,从而提高模型在资源受限环境中的部署效率。这些技术对于在边缘设备、移动设备等计算资源有限的场景中部署深度学习模型尤为重要。以下是几种常见的模型压缩和优化技术的解释:
萤火架构
1 年前
剪枝
·
模型压缩
·
量化
·
蒸馏
扎克伯格说,Llama3-8B还是太大了,量化、剪枝、蒸馏准备上!
扎克伯格说,Llama3-8B还是太大了,不适合放到手机中,有什么办法?量化、剪枝、蒸馏,如果你经常关注大语言模型,一定会看到这几个词,单看这几个字,我们很难理解它们都干了些什么,但是这几个词对于现阶段的大语言模型发展特别重要,它们就是将模型缩小的利器。这篇文章就带大家来认识认识它们,理解其中的原理。
deephub
1 年前
人工智能
·
深度学习
·
神经网络
·
量化
·
蒸馏
神经网络中的量化与蒸馏
本文将深入研究深度学习中精简模型的技术:量化和蒸馏深度学习模型,特别是那些具有大量参数的模型,在资源受限环境中的部署几乎是不可能的。所以就出现了两种流行的技术,量化和蒸馏,它们都是可以使模型更加轻量级,而不会对性能造成太大影响。但是它们需要什么,它们又如何比较呢?