【大模型（LLM）的业务开发】学习笔记

[第一阶段：预训练 ------ 夯实知识基座](#第一阶段：预训练 —— 夯实知识基座)

[第二阶段：有监督微调 ------ 激发指令能力](#第二阶段：有监督微调 —— 激发指令能力)

[第三阶段：奖励建模 ------ 建立评价标准](#第三阶段：奖励建模 —— 建立评价标准)

[第四阶段：强化学习 ------ 对齐人类价值观](#第四阶段：强化学习 —— 对齐人类价值观)

在大模型（LLM）的业务开发中，构建一个高性能、懂指令且符合人类价值观的模型，通常遵循一个经典的"四步走"流水线。这四个阶段层层递进，分别解决了模型"懂知识"、"懂指令"、"懂好坏"和"懂对齐"的问题。

以下我将从业务开发的角度，为你详细拆解这四个核心阶段：

这是大模型开发的"地基"阶段，决定了模型能力的上限。

核心目标：让模型学习语言的规律（语法、逻辑）和世界的通用知识（事实、常识）。
业务逻辑 ：
- 数据投喂：使用海量、无标注的文本数据（如维基百科、书籍、网页、代码库等，规模可达数万亿 Token）。
- 自监督学习：模型通过"完形填空"的方式训练自己。例如，根据上文预测下一个词（因果语言建模），或者还原被遮盖的词（掩码语言建模）。
产出成果 ：基础模型。它具备极强的文本续写能力，能写出通顺的句子，但还不懂得如何回答问题或遵循指令，更像是一个"读过万卷书的学者，但没上过班"。
资源消耗 ：极高。通常需要数千张高性能 GPU（如 A100/H100）连续训练数月。

基础模型虽然博学，但往往"答非所问"。这一阶段的目标是让模型学会"听懂人话"并完成任务。

核心目标：让模型理解用户的意图，从"文本续写者"转变为"任务执行者"。
业务逻辑 ：
- 数据构建 ：构建高质量的"指令-回答"对数据集。例如，输入"请帮我写一封请假条"，模型需要输出标准的请假条格式。
- 训练方式：在基础模型的基础上，使用这些标注数据进行有监督训练。
产出成果 ：SFT 模型。它具备了初步的指令遵循能力，可以进行多轮对话、翻译、写代码或进行逻辑推理。
资源消耗 ：中等。相比预训练，所需数据量少得多（数万至百万级），训练周期通常在数天至数周。

SFT 模型虽然能回答问题，但无法区分回答的"优劣"或"好坏"。我们需要给它装一个"裁判系统"。

核心目标：训练一个能准确评估模型输出质量的"裁判"。
业务逻辑 ：
- 数据收集：让 SFT 模型针对同一个指令生成多个不同的回答。
- 人工标注：由人类标注员对这些回答进行排序（例如：回答 A > 回答 B > 回答 C）。
- 训练模型 ：训练一个独立的奖励模型，让它学会模仿人类的判断，给高质量的回答打高分，低质量的打低分。
产出成果 ：奖励模型。它本身不生成文本，而是充当"考官"，为后续的强化学习提供打分信号。
资源消耗 ：中等。主要成本在于高质量的人工标注数据构建。

这是让模型从"能干活"进阶到"干得好、干得安全"的关键一步。

核心目标：让模型的输出更符合人类的偏好（有用性、安全性、无害性）。
业务逻辑 ：
- 博弈过程：SFT 模型（学生）生成回答，奖励模型（老师）进行打分。
- 算法优化：利用强化学习算法（如 PPO），根据奖励模型的打分来更新 SFT 模型的参数。如果回答得分高，就增加该回答出现的概率；如果得分低（或包含有害内容），就抑制其生成。
- 技术演进：目前除了经典的 PPO 算法，更高效的 DPO（直接偏好优化）等技术也在逐渐普及，它们简化了流程，直接用偏好数据优化模型。
产出成果 ：最终对齐模型。这是面向用户发布的最终产品，它不仅回答准确，而且语气自然、逻辑严密且安全合规。
资源消耗 ：较高。需要大量的采样和迭代计算，对显存和算力有较高要求。