大模型微调

微调就是在已经训练好的基座大模型上,用你自己的数据集继续训练,让模型更符合你的特定需求。

有哪几种方式

1.按参数更新规模分类(教它什么?)

  • 全量微调(Full Fine-Tuning,简称FFT)

更新模型所有参数

优点:性能上限最高

缺点:训练成本高,容易过拟合。容易出现灾难性遗忘

  • 参数高效微调(Parameter-Efficient Fine-Tuning,简称PEFT)

只更新/添加极少量参数(通常<1%甚至<0.1%),原始权重大多冻结

优点:训练速度快

缺点:极端情况下性能可能略低于全参数,但实际差距已非常小。

PEFT内部又细分为几种经典技术

    • Adapter Tuning(适配器微调):在Transformer层中插入小型可训练的Adapter模块
    • LoRA及其变体(目前最流行)
      • LoRA(Low-Rank Adaptation):在权重矩阵旁添加低秩矩阵。
      • QLoRA(量化LoRA):结合4bit量化,进一步降低显存(单卡即可微调70B模型)
    • Prompt Tuning :不改动模型内部网络,只在输入的 Prompt 层面加上一些"虚拟的、可被机器训练的 Token"。显存占用极小,但 对复杂任务(如控制机械臂)效果往往不如 LoRA

2.按训练目标 / 数据类型分类(怎么教它?)

  • 监督微调 (Supervised Fine-Tuning, SFT)

使用指令-标签对 数据进行训练

  • 对齐微调 / 偏好训练

让模型输出更符合人类偏好(有用、无害、诚实)

常见方法:

    • RLHF (Reinforcement Learning from Human Feedback,基于人类反馈的强化学习):不直接给标准答案,而让模型自己生成几个答案,然后让人类 或打分模型)来评价"哪个更好",用扣分和加分来引导它。 效果好但流程复杂、不稳定。
    • DPO (Direct Preference Optimization,直接偏好优化) :RLHF 的升级版。RLHF 过程太复杂 (需要同时跑好几个模型),DPO 直接通过数学推导,把"选 A 不选 B"的偏好直接融合到类似 SFT 的训练流程里,大大简化了训练难度。
  1. 其他辅助分类

• 继续预训练(Continued Pre-training):用领域无标签数据继续做下一token预测(类似预训练),常用于领域适应(如金融、医疗),之后再接SFT。

• 部分参数微调(Partial / Layer-wise):只调最后几层或特定层(介于全参数和PEFT之间,早期的做法)。

• 无监督微调:较少见,通常指继续预训练。

相关推荐
小雨下雨的雨2 小时前
井字棋AI机器人实现详解 - Minimax算法实战-鸿蒙PC Electron框架完成
前端·人工智能·算法·华为·electron·鸿蒙
我没胡说八道5 小时前
高校论文AI检测优化工具对比研究与实测分析(2026)
人工智能·深度学习·机器学习·计算机视觉·aigc·论文
秦亚伟5 小时前
AI浪潮重塑融资租赁行业新格局
人工智能
love530love5 小时前
LiveTalking 数字人项目 Windows 部署完全指南(EPGF 架构)
人工智能·windows·python·架构·livetalking·epgf
元启数宇5 小时前
喷淋AI布点实战:8小时人工布点→20分钟自动出图
人工智能
哈哈,柳暗花明5 小时前
人工智能专业术语详解(H)
人工智能·专业术语
圣殿骑士-Khtangc5 小时前
AI 编程工具 2026 实战横评:Cursor 3 vs Claude Code vs Copilot,开发者选型完全指南
人工智能·copilot
云器科技5 小时前
云器Lakehouse 2026年5月版本发布:拥抱 AI Agent,重塑数据智能开发新范式
人工智能
小鹰-上海鹰谷-电子实验记录本5 小时前
第六届党建引领科创生态座谈会 | 邓光辉博士出席分享AI赋能创新药科研新范式
人工智能·ai·电子实验记录本·药企合规
极客老王说Agent5 小时前
2026电信IDC机房巡检深度报告:人工巡检频次和深度够吗?实在Agent重塑智慧运维新范式
人工智能·ai·chatgpt