以下是目前业界在全参微调(SFT)方法论上的几个深度前沿分支:
前置概念 :
Distilling System 2 into System 1 (用CoT、思考模型的推理过程去掉,只保留最终答案来构造QA进行蒸馏训练)
- System 1 是指对给定的输入直接给出答案,而不产生中间tokens。
- System 2 是指通过产生中间tokens来增强模型表现的方式,包括进行搜索、多次prompt等。比如Chain-of-Thoughts、Rephrase and Respond、Branch-Solve-Merge等。
一、 Fast-Slow Thinking SFT(快慢思考 / System 2 微调)
受诺贝尔奖得主丹尼尔·卡尼曼的《思考,快与慢》以及 OpenAI o1 模型的启发,业界开始对模型进行 System 2(慢思考) 的全参微调。这种 SFT 不再只关注"最终答案",而是强迫模型学习"思考的过程"。
- Long CoT(长思维链)微调
- 数据形态 :训练数据被重构为包含隐式或显式思考区间的格式。模型在输出最终答案前,必须先输出
<think> ... </think>标签,在标签内进行长篇的逻辑拆解、多假设探索(Multi-Solution Exploration),甚至自我否定和修正。 - 训练目的:让模型学会"三思而后行",彻底改变此前生成下一个 Token 时"拍脑袋直答"的习惯,大幅提升数学、代码等逻辑密集型任务的准确率。
- 数据形态 :训练数据被重构为包含隐式或显式思考区间的格式。模型在输出最终答案前,必须先输出
- Rejection Sampling Fine-Tuning (RFT / 拒绝采样微调)
- 数据获取难题:极其复杂的慢思考数据很难由人工标注。
- SFT 新解法 :给定一个复杂问题,让待训练模型自己生成几十上百条不同的"思考-回答"路径。利用编译器(针对代码)或规则验证器(针对数学)自动测试或教师模型(针对主观性问题),只保留全对且步骤最清晰的那条路径 。然后将这些高质量的内部产出作为全新的 SFT 数据,再次对模型进行全参微调。这种"用模型自身最优秀的产出训练自己"的方法,可以尽可能规避小尺寸模型强行学习大尺寸模型思路与答案的困境------难以学会或者需要更大批量数据才能学会。
- 自适应快慢思考切换 (Adaptive Fast/Slow Thinking)
- 痛点:如果模型对所有问题(比如"你好")都进行长篇大论的慢思考,会极大浪费算力且延迟极高。
- 前沿 SFT 方案 :业界(如华为的 openPangu、OThink-R1 等研究)通过特殊的 SFT 数据配比,教导模型学会 "难度感知" 。在微调数据中,对简单问题直接输出答案(System 1),对复杂问题才调用
<think>标签(System 2)。通过这种双模混合 SFT,模型可以在推理时自动无缝切换快慢挡。建议学习 Qwen3混合思考(人为控制是否思考)->字节AdaCoT(自主决定是否思考)->清华AdaThinking(自主决定是否思考)。
二、 Agentic SFT(智能体与工具调用微调)
为了让大模型从"聊天机器人"升级为能操作外部世界的"数字员工",Agentic SFT 致力于赋予模型 API 调用、环境感知和多步规划能力。
- ReAct 格式微调 (Reasoning + Acting)
- 数据范式 :在 SFT 数据中,Prompt 会包含一大串外部工具的 JSON Schema 定义。模型的输出必须被严格规约为
[Thought (思考)] -> [Action (调用什么工具以及参数)] ->[Observation (等待外部系统返回结果)] -> [Final Answer (总结答案)]的多轮交织格式。注意Observation部分内容必须mask掉,为环境真实反馈填充内容,绝不能是模型自己幻觉生成,不mask的话训出来的模型会产生很多幻觉。 - 核心挑战 :这种微调极度考验模型的格式遵从能力 (不能编造不存在的工具)和参数提取能力(能准确从用户自然语言中提取 API 需要的参数)。
- 数据范式 :在 SFT 数据中,Prompt 会包含一大串外部工具的 JSON Schema 定义。模型的输出必须被严格规约为
- 状态维持与深度研究范式 (Iterative Deep-Research)
- 传统的 Agentic SFT 只是把工具调用的历史不断追加到上下文里,很容易导致上下文爆炸和模型分心。
- 前沿方案 :目前的顶级 SFT 训练(如通义 DeepResearch 等)开始引入"工作区(Workspace)"和"阶段性报告(Report)"的概念。SFT 数据中会训练模型每调用几次工具后,就主动生成一份"阶段性总结摘要",并清空前面冗余的网页爬取乱码。这教会了模型在长线任务中管理自己的内存。
- 推理与工具使用的解耦微调 (Disentangled Tuning)
- 业界发现,模型在疯狂学习"特定 JSON 工具格式"时,其原本的通用自然语言推理能力可能会下降(即"格式污染")。目前的进阶玩法是在 SFT 时将工具调用的 Token 和纯逻辑推理的 Token 在底层路由到不同的网络模块中去更新,保证 Agent 能力与通用能力互不干扰。
三、 System 2 Attention / Context Refinement SFT (抗干扰微调)
在实际业务场景(如 RAG 知识库问答)中,模型常常被检索出来的冗余文档或用户的误导性提示"带偏"。
- SFT 方案 :Meta 提出的 System 2 Attention (S2A) 理念。在全参微调的数据集中,刻意设计一种"分步处理"的范式:
- 首先,强迫模型输出一段净化后的上下文:"这段长文本中,只有 A 和 B 两个事实与用户的问题有关,其余都是噪声。"
- 然后,再让模型基于自己净化的文本给出最终回答。
- 效果:这种微调极大地提升了模型的抗幻觉能力和面对恶意 Prompt(Jailbreak)时的鲁棒性。
四、 SFT 与 RL(强化学习)的融合边界
传统观点认为,预训练 -> SFT -> RL 是一条单向的流水线。但现在的 SFT 已经和 RL 深度绑定:
- Cold-Start SFT(冷启动微调):在进行类似 DeepSeek-R1 的大规模强化学习(PPO/GRPO)之前,必须先用大概 1万~5万条极其高质量的 Long CoT 或 Agentic 数据对模型进行全参 SFT。如果不做这一步,模型在强化学习阶段根本不知道什么是"反思",会在庞大的动作空间中迷失。
- 蒸馏微调 (Distillation SFT):用超大模型(如 671B 的 R1)在强化学习后生成的带有庞大思维链的数据,去对小模型(如 7B/8B)进行全参微调。这证明了仅仅通过高质量的 SFT,就可以把超大模型在 RL 阶段顿悟出的"System 2 推理范式"完美平移给小模型。