【LLM进阶-后训练&部署】2. 常见的全参数微调SFT方法

以下是目前业界在全参微调(SFT)方法论上的几个深度前沿分支:

前置概念
Distilling System 2 into System 1 (用CoT、思考模型的推理过程去掉,只保留最终答案来构造QA进行蒸馏训练)

  • System 1 是指对给定的输入直接给出答案,而不产生中间tokens。
  • System 2 是指通过产生中间tokens来增强模型表现的方式,包括进行搜索、多次prompt等。比如Chain-of-Thoughts、Rephrase and Respond、Branch-Solve-Merge等。

一、 Fast-Slow Thinking SFT(快慢思考 / System 2 微调)

受诺贝尔奖得主丹尼尔·卡尼曼的《思考,快与慢》以及 OpenAI o1 模型的启发,业界开始对模型进行 System 2(慢思考) 的全参微调。这种 SFT 不再只关注"最终答案",而是强迫模型学习"思考的过程"。

  1. Long CoT(长思维链)微调
    • 数据形态 :训练数据被重构为包含隐式或显式思考区间的格式。模型在输出最终答案前,必须先输出 <think> ... </think> 标签,在标签内进行长篇的逻辑拆解、多假设探索(Multi-Solution Exploration),甚至自我否定和修正。
    • 训练目的:让模型学会"三思而后行",彻底改变此前生成下一个 Token 时"拍脑袋直答"的习惯,大幅提升数学、代码等逻辑密集型任务的准确率。
  2. Rejection Sampling Fine-Tuning (RFT / 拒绝采样微调)
    • 数据获取难题:极其复杂的慢思考数据很难由人工标注。
    • SFT 新解法 :给定一个复杂问题,让待训练模型自己生成几十上百条不同的"思考-回答"路径。利用编译器(针对代码)或规则验证器(针对数学)自动测试或教师模型(针对主观性问题),只保留全对且步骤最清晰的那条路径 。然后将这些高质量的内部产出作为全新的 SFT 数据,再次对模型进行全参微调。这种"用模型自身最优秀的产出训练自己"的方法,可以尽可能规避小尺寸模型强行学习大尺寸模型思路与答案的困境------难以学会或者需要更大批量数据才能学会
  3. 自适应快慢思考切换 (Adaptive Fast/Slow Thinking)

二、 Agentic SFT(智能体与工具调用微调)

为了让大模型从"聊天机器人"升级为能操作外部世界的"数字员工",Agentic SFT 致力于赋予模型 API 调用、环境感知和多步规划能力。

  1. ReAct 格式微调 (Reasoning + Acting)
    • 数据范式 :在 SFT 数据中,Prompt 会包含一大串外部工具的 JSON Schema 定义。模型的输出必须被严格规约为 [Thought (思考)] -> [Action (调用什么工具以及参数)] ->[Observation (等待外部系统返回结果)] -> [Final Answer (总结答案)] 的多轮交织格式。注意Observation部分内容必须mask掉,为环境真实反馈填充内容,绝不能是模型自己幻觉生成,不mask的话训出来的模型会产生很多幻觉。
    • 核心挑战 :这种微调极度考验模型的格式遵从能力 (不能编造不存在的工具)和参数提取能力(能准确从用户自然语言中提取 API 需要的参数)。
  2. 状态维持与深度研究范式 (Iterative Deep-Research)
    • 传统的 Agentic SFT 只是把工具调用的历史不断追加到上下文里,很容易导致上下文爆炸和模型分心。
    • 前沿方案 :目前的顶级 SFT 训练(如通义 DeepResearch 等)开始引入"工作区(Workspace)"和"阶段性报告(Report)"的概念。SFT 数据中会训练模型每调用几次工具后,就主动生成一份"阶段性总结摘要",并清空前面冗余的网页爬取乱码。这教会了模型在长线任务中管理自己的内存
  3. 推理与工具使用的解耦微调 (Disentangled Tuning)
    • 业界发现,模型在疯狂学习"特定 JSON 工具格式"时,其原本的通用自然语言推理能力可能会下降(即"格式污染")。目前的进阶玩法是在 SFT 时将工具调用的 Token 和纯逻辑推理的 Token 在底层路由到不同的网络模块中去更新,保证 Agent 能力与通用能力互不干扰。

三、 System 2 Attention / Context Refinement SFT (抗干扰微调)

在实际业务场景(如 RAG 知识库问答)中,模型常常被检索出来的冗余文档或用户的误导性提示"带偏"。

  • SFT 方案 :Meta 提出的 System 2 Attention (S2A) 理念。在全参微调的数据集中,刻意设计一种"分步处理"的范式:
    1. 首先,强迫模型输出一段净化后的上下文:"这段长文本中,只有 A 和 B 两个事实与用户的问题有关,其余都是噪声。"
    2. 然后,再让模型基于自己净化的文本给出最终回答。
  • 效果:这种微调极大地提升了模型的抗幻觉能力和面对恶意 Prompt(Jailbreak)时的鲁棒性。

四、 SFT 与 RL(强化学习)的融合边界

传统观点认为,预训练 -> SFT -> RL 是一条单向的流水线。但现在的 SFT 已经和 RL 深度绑定:

  • Cold-Start SFT(冷启动微调):在进行类似 DeepSeek-R1 的大规模强化学习(PPO/GRPO)之前,必须先用大概 1万~5万条极其高质量的 Long CoT 或 Agentic 数据对模型进行全参 SFT。如果不做这一步,模型在强化学习阶段根本不知道什么是"反思",会在庞大的动作空间中迷失。
  • 蒸馏微调 (Distillation SFT):用超大模型(如 671B 的 R1)在强化学习后生成的带有庞大思维链的数据,去对小模型(如 7B/8B)进行全参微调。这证明了仅仅通过高质量的 SFT,就可以把超大模型在 RL 阶段顿悟出的"System 2 推理范式"完美平移给小模型。
相关推荐
2501_933329552 小时前
媒介宣发技术中台架构实践:基于AI多模态的舆情处置与智能分发系统设计
人工智能·架构·系统架构
安全菜鸟2 小时前
OpenClaw-CN 完整安装教程与避坑指南(国内镜像加速版)
人工智能·openclaw
小慧教你用AI2 小时前
OpenClaw的多Agent架构设计,揭示其实现原理
人工智能
FluxMelodySun2 小时前
机器学习(二十三) 密度聚类与层次聚类
人工智能·机器学习·聚类
奋斗中的小猩猩2 小时前
Test Case Generator / AI 测试用例生成器(多Agent组合,效果可观)
人工智能·测试用例
总有刁民想爱朕ha2 小时前
OpenCV 图像操作入门:从零开始玩转计算机视觉
人工智能·opencv·计算机视觉
前进的李工2 小时前
LangChain使用之Model IO(提示词模版之PromptTemplate)
开发语言·人工智能·python·langchain
Techblog of HaoWANG2 小时前
目标检测与跟踪(9)-- Jetson Xavier NX GPIO控制3D结构光C与Python双版本实现(中)
c语言·人工智能·目标检测
掘金一周2 小时前
吃龙虾🦞咯!万字拆解OpenClaw的架构与设计 | 掘金一周 3.19
前端·人工智能·后端