【LLM进阶-后训练&部署】2. 常见的全参数微调SFT方法

以下是目前业界在全参微调(SFT)方法论上的几个深度前沿分支:

前置概念
Distilling System 2 into System 1 (用CoT、思考模型的推理过程去掉,只保留最终答案来构造QA进行蒸馏训练)

  • System 1 是指对给定的输入直接给出答案,而不产生中间tokens。
  • System 2 是指通过产生中间tokens来增强模型表现的方式,包括进行搜索、多次prompt等。比如Chain-of-Thoughts、Rephrase and Respond、Branch-Solve-Merge等。

一、 Fast-Slow Thinking SFT(快慢思考 / System 2 微调)

受诺贝尔奖得主丹尼尔·卡尼曼的《思考,快与慢》以及 OpenAI o1 模型的启发,业界开始对模型进行 System 2(慢思考) 的全参微调。这种 SFT 不再只关注"最终答案",而是强迫模型学习"思考的过程"。

  1. Long CoT(长思维链)微调
    • 数据形态 :训练数据被重构为包含隐式或显式思考区间的格式。模型在输出最终答案前,必须先输出 <think> ... </think> 标签,在标签内进行长篇的逻辑拆解、多假设探索(Multi-Solution Exploration),甚至自我否定和修正。
    • 训练目的:让模型学会"三思而后行",彻底改变此前生成下一个 Token 时"拍脑袋直答"的习惯,大幅提升数学、代码等逻辑密集型任务的准确率。
  2. Rejection Sampling Fine-Tuning (RFT / 拒绝采样微调)
    • 数据获取难题:极其复杂的慢思考数据很难由人工标注。
    • SFT 新解法 :给定一个复杂问题,让待训练模型自己生成几十上百条不同的"思考-回答"路径。利用编译器(针对代码)或规则验证器(针对数学)自动测试或教师模型(针对主观性问题),只保留全对且步骤最清晰的那条路径 。然后将这些高质量的内部产出作为全新的 SFT 数据,再次对模型进行全参微调。这种"用模型自身最优秀的产出训练自己"的方法,可以尽可能规避小尺寸模型强行学习大尺寸模型思路与答案的困境------难以学会或者需要更大批量数据才能学会
  3. 自适应快慢思考切换 (Adaptive Fast/Slow Thinking)

二、 Agentic SFT(智能体与工具调用微调)

为了让大模型从"聊天机器人"升级为能操作外部世界的"数字员工",Agentic SFT 致力于赋予模型 API 调用、环境感知和多步规划能力。

  1. ReAct 格式微调 (Reasoning + Acting)
    • 数据范式 :在 SFT 数据中,Prompt 会包含一大串外部工具的 JSON Schema 定义。模型的输出必须被严格规约为 [Thought (思考)] -> [Action (调用什么工具以及参数)] ->[Observation (等待外部系统返回结果)] -> [Final Answer (总结答案)] 的多轮交织格式。注意Observation部分内容必须mask掉,为环境真实反馈填充内容,绝不能是模型自己幻觉生成,不mask的话训出来的模型会产生很多幻觉。
    • 核心挑战 :这种微调极度考验模型的格式遵从能力 (不能编造不存在的工具)和参数提取能力(能准确从用户自然语言中提取 API 需要的参数)。
  2. 状态维持与深度研究范式 (Iterative Deep-Research)
    • 传统的 Agentic SFT 只是把工具调用的历史不断追加到上下文里,很容易导致上下文爆炸和模型分心。
    • 前沿方案 :目前的顶级 SFT 训练(如通义 DeepResearch 等)开始引入"工作区(Workspace)"和"阶段性报告(Report)"的概念。SFT 数据中会训练模型每调用几次工具后,就主动生成一份"阶段性总结摘要",并清空前面冗余的网页爬取乱码。这教会了模型在长线任务中管理自己的内存
  3. 推理与工具使用的解耦微调 (Disentangled Tuning)
    • 业界发现,模型在疯狂学习"特定 JSON 工具格式"时,其原本的通用自然语言推理能力可能会下降(即"格式污染")。目前的进阶玩法是在 SFT 时将工具调用的 Token 和纯逻辑推理的 Token 在底层路由到不同的网络模块中去更新,保证 Agent 能力与通用能力互不干扰。

三、 System 2 Attention / Context Refinement SFT (抗干扰微调)

在实际业务场景(如 RAG 知识库问答)中,模型常常被检索出来的冗余文档或用户的误导性提示"带偏"。

  • SFT 方案 :Meta 提出的 System 2 Attention (S2A) 理念。在全参微调的数据集中,刻意设计一种"分步处理"的范式:
    1. 首先,强迫模型输出一段净化后的上下文:"这段长文本中,只有 A 和 B 两个事实与用户的问题有关,其余都是噪声。"
    2. 然后,再让模型基于自己净化的文本给出最终回答。
  • 效果:这种微调极大地提升了模型的抗幻觉能力和面对恶意 Prompt(Jailbreak)时的鲁棒性。

四、 SFT 与 RL(强化学习)的融合边界

传统观点认为,预训练 -> SFT -> RL 是一条单向的流水线。但现在的 SFT 已经和 RL 深度绑定:

  • Cold-Start SFT(冷启动微调):在进行类似 DeepSeek-R1 的大规模强化学习(PPO/GRPO)之前,必须先用大概 1万~5万条极其高质量的 Long CoT 或 Agentic 数据对模型进行全参 SFT。如果不做这一步,模型在强化学习阶段根本不知道什么是"反思",会在庞大的动作空间中迷失。
  • 蒸馏微调 (Distillation SFT):用超大模型(如 671B 的 R1)在强化学习后生成的带有庞大思维链的数据,去对小模型(如 7B/8B)进行全参微调。这证明了仅仅通过高质量的 SFT,就可以把超大模型在 RL 阶段顿悟出的"System 2 推理范式"完美平移给小模型。
相关推荐
阿里云大数据AI技术13 小时前
OpenClaw 长记忆增强:基于 Hologres + Mem0 的企业级方案
人工智能
北京耐用通信13 小时前
工业自动化领域耐中达讯自动化CC-Link IE转EtherCAT技术解决方案
人工智能·物联网·网络协议·自动化·信息与通信
飞哥数智坊13 小时前
【大纲】TRAE AI 编程入门扩展课:一些可能有用的编程常识
人工智能·ai编程·trae
恋猫de小郭13 小时前
Google 开源大模型 Gemma4 怎么选,本地跑的话需要什么条件?
前端·人工智能·ai编程
用户20187928316713 小时前
Cli开端之 /init命令
人工智能
用户20187928316713 小时前
/rewind 完全指南:时光机原理与终极用法
人工智能
熊猫钓鱼>_>13 小时前
AI驱动的Web应用智能化:WebMCP、WebSkills与WebAgent的融合实践
前端·人工智能·ai·skill·webagent·webmcp·webskills
用户20187928316713 小时前
/insights 命令之一个AI教练的故事
人工智能
key_3_feng13 小时前
Workbuddy——Not only Work, but also Entertainment!
人工智能·workbuddy
sinat_2869451913 小时前
harness engineering
人工智能·算法·chatgpt