检索增强VS知识蒸馏VS伪标签扩展

(自用,希望对您也产生一点帮助)

这三种技术都可以让模型具备识别未知/未标注事物的能力

检索增强(查资料):不仅仅依赖于模型本身的参数(参数化模型),还可以通过检索外部知识库(非参数化记忆)的相关信息,提高模型表现。

知识蒸馏 (拜师学艺):是让一个轻量级的"学生模型"去学习一个"重量级"的教师模型。精髓在于让学生模型去学习教师模型输出的富含"暗知识"的概率分布。但教师模型输出的概率分布往往比较"硬",例如[0.01,0.12,0,0,0,0.87]这种,为了让隐藏在极小概率值中的"暗知识"更容易被学生学习,需要将其软化,例如[0.1,0.3,0.07,0,0.03,0.5]这种。通过引入温度T即可解决这个问题。

当T=1时,是标准的softmax函数,T>1时,软化过程,0<T<1时,硬化过程。

学生模型的损失函数由两部分组成,第一部分保证模型具备独立解决问题的能力(当T=1时,模型的预测结果与真实标签的交叉熵损失),第二部分是为了保证模型能学习到教师模型的暗知识(当T1=T2>1时,教师模型与学生模型预测结果概率分布的KL散度,衡量两个分布之间的差异)
知识蒸馏

伪标签扩展(自学成才):用模型去对未标注数据进行预测,预测的类别可能来源于一个大的词汇表(之前可能都没见过),选择置信度高的预测,将它们视为这批数据的伪标签,用这些带有伪标签的新数据来重新训练或微调检测器

相关推荐
火车叼位2 分钟前
也许你不需要创建.venv, 此规范使python脚本自备依赖
python
CoderIsArt8 分钟前
三大主流智能体框架解析
人工智能
火车叼位9 分钟前
脚本伪装:让 Python 与 Node.js 像原生 Shell 命令一样运行
运维·javascript·python
民乐团扒谱机12 分钟前
【微实验】机器学习之集成学习 GBDT和XGBoost 附 matlab仿真代码 复制即可运行
人工智能·机器学习·matlab·集成学习·xgboost·gbdt·梯度提升树
Coder_Boy_14 分钟前
Deeplearning4j+ Spring Boot 电商用户复购预测案例中相关概念
java·人工智能·spring boot·后端·spring
芷栀夏17 分钟前
CANN ops-math:揭秘异构计算架构下数学算子的低延迟高吞吐优化逻辑
人工智能·深度学习·神经网络·cann
L5434144619 分钟前
告别代码堆砌匠厂架构让你的系统吞吐量翻倍提升
大数据·人工智能·架构·自动化·rpa
孤狼warrior19 分钟前
YOLO目标检测 一千字解析yolo最初的摸样 模型下载,数据集构建及模型训练代码
人工智能·python·深度学习·算法·yolo·目标检测·目标跟踪
凯子坚持 c20 分钟前
构建企业级 AI 工厂:基于 CANN `cann-mlops-suite` 的端到端 MLOps 实战
人工智能
Elwin Wong22 分钟前
浅析OpenClaw:从“贾维斯”梦想看下一代 AI 操作系统的架构演进
人工智能·agent·clawdbot·moltbot·openclaw