技术栈
知识蒸馏
小何code
21 天前
模型压缩
·
知识蒸馏
·
模型量化
·
深度学习优化
·
模型剪枝
人工智能【第47篇】深度学习优化:模型压缩与加速技术
作者的话:随着深度学习模型越来越庞大(GPT-4有万亿级参数),如何在资源受限的设备上部署这些模型成为一个巨大挑战。模型压缩与加速技术能够在保持模型精度的同时,显著减小模型体积和提升推理速度。本文将深入解析这些技术的原理、方法和实战技巧!
nap-joker
1 个月前
知识蒸馏
·
特征解耦
·
教师模型-学生模型
·
多模态抑郁症识别
·
特征正交性分析
·
不完整多模态数据
解纠缠-多模态特权知识提取在不完全多模态数据下的抑郁症识别
提出融合特征解耦与特权知识蒸馏的框架(Dis2DR) 针对多模态抑郁症识别中模态缺失或降质问题,设计了一个通用框架,同时利用特征解耦和特权知识蒸馏来提高识别鲁棒性。
__Wedream__
1 个月前
人工智能
·
深度学习
·
计算机视觉
·
知识蒸馏
·
超分辨率重建
·
对比学习
ICMR2024 | 当对比学习遇上知识蒸馏:轻量超分模型压缩新框架
近年来,得益于深度学习的发展,单幅图像超分辨率(Single Image Super-Resolution, SISR)技术得到了快速的进步。然而,为了取得更好的性能,大多数基于卷积神经网络(Convolutional Neural Networks, CNNs)的方法盲目地加深网络深度,导致模型参数量大,不可避免地带巨大的计算开销和内存消耗,限制了其在资源受限设备上的应用。
博士僧小星
3 个月前
人工智能
·
深度学习
·
机器学习
·
知识蒸馏
·
模型蒸馏
人工智能|大模型——模型——大模型蒸馏详解(定义/原理/关键技术/落地)
大模型蒸馏(Model Distillation),即知识蒸馏(Knowledge Distillation),是一种将大型教师模型(如BERT、GPT-4o、DeepSeek-R1)的“隐含知识”高效迁移至轻量级学生模型(如DistilBERT、Qwen-1.5B、LSTM+Attention)的关键压缩技术。本文基于掘金、CSDN及行业实测文档三源权威材料,系统梳理其四大核心:① 定义与动因——直面2017–2024年参数量从5×10⁶暴涨至>10¹²的算力焦虑;② 四步闭环原理——教师训练→软标签生
硅基捕手维克托
4 个月前
大模型
·
知识蒸馏
·
模型蒸馏
·
上下文蒸馏
·
在策略蒸馏
·
微软研究院
·
大模型蒸馏
在策略上下文蒸馏:OPCD 把上下文知识直接焊进参数里 | 微软研究院
论文链接:https://arxiv.org/abs/2602.12275 发布时间:2026.02.12 机构:微软研究院
程序员爱德华
4 个月前
大语言模型
·
知识蒸馏
深度学习模型
最基础的神经网络,用于简单分类、回归擅长图像、语音、时序等网格数据传统序列模型,处理文本、时间序列ResNet / DenseNet:图像分类backbone ViT(Vision Transformer):用Transformer做视觉 YOLO / Faster R-CNN:目标检测 U-Net:医学图像分割 GAN / StyleGAN:图像生成 Stable Diffusion / Flux:文生图、图生图扩散模型
镰刀韭菜
5 个月前
大语言模型
·
强化学习
·
知识蒸馏
·
指令微调
·
deepseek
·
推理模型
·
旅程式学习
【LLM】一文理解推理大模型
2024年,大语言模型领域呈现出日益细化的趋势。除了预训练和微调之外,我们还见证了各种专业化应用的兴起,从检索增强生成到代码助手,不一而足。我预计这一趋势将在2025年进一步加速,对特定领域和应用场景的优化(即“专业化”)将得到更加重视。 图1:阶段1至阶段3是开发大型语言模型的通用步骤。阶段4则针对特定用例对大型语言模型进行专门化处理。
山顶夕景
5 个月前
大模型
·
llm
·
知识蒸馏
【KD】Generalized Knowledge Distillation和On-Policy Distillation
GKD(Generalized Knowledge Distillation,广义知识蒸馏)训练算法由论文 On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes 提出。该算法通过结合离线(off-policy)和在线(on-policy)学习策略,将教师模型的知识迁移到学生模型中。
这张生成的图像能检测吗
6 个月前
人工智能
·
生成对抗网络
·
计算机视觉
·
知识蒸馏
·
图像生成
·
模型压缩技术
(论文速读)Nickel and Diming Your GAN:通过知识蒸馏提高GAN效率的双重方法
论文题目:Nickel and Diming Your GAN: A Dual-Method Approach to Enhancing GAN Efficiency via Knowledge Distillation (通过知识蒸馏提高GAN效率的双重方法)
七夜zippoe
6 个月前
人工智能
·
知识蒸馏
·
轻量模型
·
量化感知
轻量模型推理性能优化实战:让AI在终端设备上“飞”起来
目录摘要1 引言:边缘计算时代的性能挑战2 技术原理:轻量模型优化的理论基础2.1 模型轻量化的核心设计理念
Yeliang Wu
6 个月前
知识蒸馏
知识蒸馏的原理及适用场景
作者:吴业亮 博客:wuyeliang.blog.csdn.net知识蒸馏是一种让小型学生模型学习大型教师模型的模型压缩技术,其核心目标是在保持性能的同时,显著降低模型的计算需求和体积。下面这个流程图清晰地展示了其典型的训练过程。
提娜米苏
6 个月前
论文阅读
·
深度学习
·
计算机视觉
·
语音识别
·
知识蒸馏
·
唇语识别
[论文笔记] ASR is all you need: Cross-modal distillation for lip reading (2020)
原文标题:ASR is all you need: Cross-modal distillation for lip reading 发表年份:2020 核心思想:利用强大的 ASR(语音识别)模型作为教师,通过跨模态蒸馏,利用无标签数据训练 VSR(视觉语音识别/唇读)模型。
西西弗Sisyphus
10 个月前
语言模型
·
概率论
·
知识蒸馏
大模型 多轮对话
flyfish多轮对话的价值在于保持上下文连贯性 理解依赖上下文的问题:比如例子中,单轮对话里 “为什么会是这种颜色?” 是孤立的,模型需要猜测 “这种颜色” 指什么(输出中模型确实询问了具体对象);而多轮对话中,模型明确知道是承接 “天空的颜色”,因此直接针对天空颜色的成因展开,回答更精准。
西贝爱学习
10 个月前
人工智能
·
知识蒸馏
《Distilling the Knowledge in a Neural Network》论文PDF分享, 2015 年,谷歌提出了 “知识蒸馏” 的概念
我用夸克网盘给你分享了「Distilling the Knowledge in a Neural Network」,链接:https://pan.quark.cn/s/c32bb910f196
InProsperity
1 年前
知识蒸馏
·
模型蒸馏
·
deepseek国产大模型
·
qwen大模型
模型蒸馏(Distillation)案例--从DeepSeek-R1-1.5B 到 Qwen-2.5-1.5B 的模型蒸馏
DeepSeek-R1-1.5B 到 Qwen-2.5-1.5B 的模型蒸馏(Distillation)
dundunmm
1 年前
人工智能
·
深度学习
·
数据挖掘
·
模型
·
知识蒸馏
·
蒸馏
【数据挖掘】知识蒸馏(Knowledge Distillation, KD)
知识蒸馏(Knowledge Distillation, KD)是一种模型压缩和知识迁移技术,旨在将大型复杂模型(称为教师模型)中的知识传递给一个较小的模型(称为学生模型),以减少计算成本,同时保持较高的性能。该方法最早由 Hinton 等人在 2015 年提出,已广泛应用于计算机视觉、自然语言处理和深度学习领域中的模型优化任务。
Tolalal
1 年前
人工智能
·
语言模型
·
自然语言处理
·
知识蒸馏
DDK:Distilling Domain Knowledge for Efficient Large Language Models
速览方法论不太了解知识蒸馏的可以看这篇文章【KD开山之作】本文的动机是“降低学生模型在各领域和老师模型的差异”。
大模型之路
1 年前
人工智能
·
知识蒸馏
·
qwen
·
deepseek
·
deepseek-r1
DeepSeek-R1 如何通过知识蒸馏将推理能力传递给 Qwen
DeepSeek-R1(深度解析 DeepSeek R1:强化学习与知识蒸馏的协同力量),作为一个通过大规模强化学习训练出的强大推理模型,在数学、编程等推理任务上达到了与OpenAI-o1相当的性能水平。然而,如此强大的模型如何能够在资源受限的设备上运行,成为了一个亟待解决的问题。DeepSeek团队通过创新的知识蒸馏技术,成功地将DeepSeek-R1的推理能力传递给了参数量更小的Qwen系列模型,为AI模型的轻量化部署提供了重要参考。本文将详细探讨这一过程。
practical_sharp
2 年前
知识蒸馏
TPAMI 2023:When Object Detection Meets Knowledge Distillation: A Survey
目标检测(Object Detection,OD)是计算机视觉中的一项关键任务,多年来涌现出了众多算法和模型。尽管当前 OD 模型的性能有所提升,但它们也变得更加复杂,由于参数规模庞大,在工业应用中并不实用。为解决这一问题,2015 年知识蒸馏(Knowledge Distillation,KD)技术被提出用于图像分类,随后因其能够将复杂教师模型所学知识转移到轻量级学生模型中,而被扩展到其他视觉任务。**本文对近年来基于 KD 的 OD 模型进行了全面综述,旨在为研究人员提供该领域近期进展的概述。**我们
阿里云大数据AI技术
2 年前
人工智能
·
知识蒸馏
·
通义千问
·
distilqwen2
DistilQwen2:通义千问大模型的知识蒸馏实践
作者:岳元浩(顾城)、汪诚愚(熊兮)、严俊冰(玖烛)、黄俊(临在)在人工智能快速发展的今天,大语言模型已经成为了人工智能的研究热点。其中,通义千问(Qwen)大模型系列凭借其强大的语言理解和生成能力,吸引了开源社区越来越多的关注。随着这些模型的应用场景不断扩大,如何提高它们的运算效率,降低部署成本,成为了一项重要的课题。知识蒸馏作为一种有效的模型压缩技术,通过将大型模型的知识转移到较小的模型中,实现了在确保性能的前提下,显著降低了所需的计算资源和推理时长,从而使得模型在实际应用中变得更加灵活和高效。