【大模型(LLM)的业务开发】学习笔记

目录

[第一阶段:预训练 ------ 夯实知识基座](#第一阶段:预训练 —— 夯实知识基座)

[第二阶段:有监督微调 ------ 激发指令能力](#第二阶段:有监督微调 —— 激发指令能力)

[第三阶段:奖励建模 ------ 建立评价标准](#第三阶段:奖励建模 —— 建立评价标准)

[第四阶段:强化学习 ------ 对齐人类价值观](#第四阶段:强化学习 —— 对齐人类价值观)


在大模型(LLM)的业务开发中,构建一个高性能、懂指令且符合人类价值观的模型,通常遵循一个经典的"四步走"流水线。这四个阶段层层递进,分别解决了模型"懂知识"、"懂指令"、"懂好坏"和"懂对齐"的问题。

以下我将从业务开发的角度,为你详细拆解这四个核心阶段:

第一阶段:预训练 ------ 夯实知识基座

这是大模型开发的"地基"阶段,决定了模型能力的上限

  • 核心目标:让模型学习语言的规律(语法、逻辑)和世界的通用知识(事实、常识)。
  • 业务逻辑
    • 数据投喂:使用海量、无标注的文本数据(如维基百科、书籍、网页、代码库等,规模可达数万亿 Token)。
    • 自监督学习:模型通过"完形填空"的方式训练自己。例如,根据上文预测下一个词(因果语言建模),或者还原被遮盖的词(掩码语言建模)。
  • 产出成果基础模型。它具备极强的文本续写能力,能写出通顺的句子,但还不懂得如何回答问题或遵循指令,更像是一个"读过万卷书的学者,但没上过班"。
  • 资源消耗极高。通常需要数千张高性能 GPU(如 A100/H100)连续训练数月。

第二阶段:有监督微调(SFT) ------ 激发指令能力

基础模型虽然博学,但往往"答非所问"。这一阶段的目标是让模型学会"听懂人话"并完成任务。

  • 核心目标:让模型理解用户的意图,从"文本续写者"转变为"任务执行者"。
  • 业务逻辑
    • 数据构建 :构建高质量的"指令-回答"对数据集。例如,输入"请帮我写一封请假条",模型需要输出标准的请假条格式。
    • 训练方式:在基础模型的基础上,使用这些标注数据进行有监督训练。
  • 产出成果SFT 模型。它具备了初步的指令遵循能力,可以进行多轮对话、翻译、写代码或进行逻辑推理。
  • 资源消耗中等。相比预训练,所需数据量少得多(数万至百万级),训练周期通常在数天至数周。

第三阶段:奖励建模 ------ 建立评价标准

SFT 模型虽然能回答问题,但无法区分回答的"优劣"或"好坏"。我们需要给它装一个"裁判系统"。

  • 核心目标:训练一个能准确评估模型输出质量的"裁判"。
  • 业务逻辑
    • 数据收集:让 SFT 模型针对同一个指令生成多个不同的回答。
    • 人工标注:由人类标注员对这些回答进行排序(例如:回答 A > 回答 B > 回答 C)。
    • 训练模型 :训练一个独立的奖励模型,让它学会模仿人类的判断,给高质量的回答打高分,低质量的打低分。
  • 产出成果奖励模型。它本身不生成文本,而是充当"考官",为后续的强化学习提供打分信号。
  • 资源消耗中等。主要成本在于高质量的人工标注数据构建。

第四阶段:强化学习 ------ 对齐人类价值观

这是让模型从"能干活"进阶到"干得好、干得安全"的关键一步。

  • 核心目标:让模型的输出更符合人类的偏好(有用性、安全性、无害性)。
  • 业务逻辑
    • 博弈过程:SFT 模型(学生)生成回答,奖励模型(老师)进行打分。
    • 算法优化:利用强化学习算法(如 PPO),根据奖励模型的打分来更新 SFT 模型的参数。如果回答得分高,就增加该回答出现的概率;如果得分低(或包含有害内容),就抑制其生成。
    • 技术演进:目前除了经典的 PPO 算法,更高效的 DPO(直接偏好优化)等技术也在逐渐普及,它们简化了流程,直接用偏好数据优化模型。
  • 产出成果最终对齐模型。这是面向用户发布的最终产品,它不仅回答准确,而且语气自然、逻辑严密且安全合规。
  • 资源消耗较高。需要大量的采样和迭代计算,对显存和算力有较高要求。
相关推荐
ASKED_20192 小时前
KDD Cup 2026 腾讯算法广告大赛赛题解读: UNI-REC (统一序列建模与特征交叉)
人工智能
fpcc2 小时前
AI和大模型——Fine-tuning
人工智能·深度学习
爱问的艾文3 小时前
八周带你手搓AI应用-Day4-赋予你的AI“记忆力”
人工智能
ACP广源盛139246256733 小时前
IX8024与科学大模型的碰撞@ACP#筑牢科研 AI 算力高速枢纽分享
运维·服务器·网络·数据库·人工智能·嵌入式硬件·电脑
向量引擎3 小时前
向量引擎接入 GPT Image 2 和 deepseek v4:一个 api key 把热门模型串起来,开发者终于不用深夜修接口了
人工智能·gpt·计算机视觉·aigc·api·ai编程·key
努力努力再努力FFF3 小时前
医生对AI辅助诊断感兴趣,作为临床人员该怎么了解和学习?
人工智能·学习
Yzzz-F3 小时前
Problem - 2205D - Codeforces
算法
AI医影跨模态组学3 小时前
如何将纵向MRI深度学习特征与局部晚期直肠癌新辅助放化疗后的免疫微环境建立关联,并解释其对pCR及预后的机制
人工智能·深度学习·论文·医学·医学影像·影像组学
Empty-Filled3 小时前
AI生成测试用例功能怎么测:一个完整实战案例
网络·人工智能·测试用例
eastyuxiao3 小时前
设计一个基于 OpenClaw 的 AI 智能体来辅助交易
人工智能