LLM--SFT简介

SFT

SFT,监督微调 ,指在预训练模型的基础上 ,通过有标注的数据进行下一步训练,使其称为在特定任务上表现良好。

具体步骤

  • 预训练:在大量通用无标注的数据上进行训练
  • 数据收集和标注:收集并且标注目标任务的数据
  • 监督微调:在预训练模型基础上进一步在特定数据上进行训练,使其能够运用在特定任务上
  • 模型评估:对训练模型进行评估

监督微调主流方法

全参数微调(Full Fine-Tunning)

原理:对预训练所有参数进行更新,使用标注数据直接优化目标

优点:效果最好

缺点:计算量庞大,可能过拟合小数据型

适用:计算资源充足,数据量大

参数高校微调(Parameter-Efficient Fine-Tunning)

原理:在预训练模型中,冻结大部分参数,只微调小部分参数进行更新。如:在Transformer模型中,只更新最后几层与输出有关的参数。

优点:计算量低,适合大模型

缺点:计算可能不够准确

经典方法

  • Adapter:在Transformer中插入小型神经网络
  • LoRA:用低秩分解模拟参数更新(这个看论文才能比较好理解)。
  • QLoRA:结合量化和LoRA
  • Prompt Tunning:仅优化输入的软提示,冻结模型参数
相关推荐
888CC++12 小时前
如何在 C 语言中进行程序调试?
前端·javascript·算法
Warson_L12 小时前
class 扩展
python
男孩李12 小时前
浅谈open jiuwen
人工智能·ai
Elastic 中国社区官方博客13 小时前
Kibana:使用 AI Chat 及 MCP 轻松创建 AI 原生仪表板
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·信息可视化
前端与小赵13 小时前
Python 数据结构陷阱与复数运算优化:列表、元组、字典成员操作辨析及 NumPy 高效实践
python
天天进步201513 小时前
Python全栈项目--基于深度学习的视频目标跟踪系统
python·深度学习·音视频
天天进步201513 小时前
Python全栈项目--Python自动化运维工具开发
运维·python·自动化
(●—●)橘子……14 小时前
力扣第503场周赛练习理解
python·学习·算法·leetcode·职场和发展·周赛
汤姆yu14 小时前
原生一体化多模态大模型技术研究
ai·大模型·多模态·智能体