LLM--SFT简介

SFT

SFT,监督微调 ,指在预训练模型的基础上 ,通过有标注的数据进行下一步训练,使其称为在特定任务上表现良好。

具体步骤

  • 预训练:在大量通用无标注的数据上进行训练
  • 数据收集和标注:收集并且标注目标任务的数据
  • 监督微调:在预训练模型基础上进一步在特定数据上进行训练,使其能够运用在特定任务上
  • 模型评估:对训练模型进行评估

监督微调主流方法

全参数微调(Full Fine-Tunning)

原理:对预训练所有参数进行更新,使用标注数据直接优化目标

优点:效果最好

缺点:计算量庞大,可能过拟合小数据型

适用:计算资源充足,数据量大

参数高校微调(Parameter-Efficient Fine-Tunning)

原理:在预训练模型中,冻结大部分参数,只微调小部分参数进行更新。如:在Transformer模型中,只更新最后几层与输出有关的参数。

优点:计算量低,适合大模型

缺点:计算可能不够准确

经典方法

  • Adapter:在Transformer中插入小型神经网络
  • LoRA:用低秩分解模拟参数更新(这个看论文才能比较好理解)。
  • QLoRA:结合量化和LoRA
  • Prompt Tunning:仅优化输入的软提示,冻结模型参数
相关推荐
小徐学编程-zZ21 小时前
量产测试数据
python·压力测试·数据库架构
QQ80578065121 小时前
django基于机器学习的电商评论情感分析系统设计实现
python·机器学习·django
Sherlock Ma21 小时前
西瓜书《机器学习》全网最详细解读 第一章:绪论
人工智能·深度学习·考研·机器学习·学习方法·西瓜书·改行学it
X journey21 小时前
机器学习进阶(13):支持向量机SVM
算法·机器学习·支持向量机
wx090921 小时前
stata实现机器学习的环境配置
python·机器学习·stata
洛水水1 天前
【力扣100题】30.二叉树的直径
算法·leetcode·职场和发展
gihigo19981 天前
Bezier曲线曲面生成算法
算法
Java识堂1 天前
mcp指南
ai
GJGCY1 天前
企业AI Agent落地架构深度解析:LLM+RAG+RPA+工具调用全流程
大数据·人工智能·ai·数字化·智能体
老王谈企服1 天前
大模型时代,制造业周期性成本分析将如何智能化升级?——工业Agent落地指南与全链路成本重构方案
人工智能·ai·重构