前沿模型系列（一）《大模型学习方法》

AI发展的三个阶段

[1. 符号智能时代（1950s-1980s）](#1. 符号智能时代（1950s-1980s）)

[2. 专用智能时代（1990s-2010s）](#2. 专用智能时代（1990s-2010s）)

[3. 大模型时代（2018 年至今）](#3. 大模型时代（2018 年至今）)

大模型的核心特性：量变到质变的涌现

[1. 涌现智能(Emergent Intelligence)](#1. 涌现智能(Emergent Intelligence))

[2. Scaling Law：性能可预测性](#2. Scaling Law：性能可预测性)

[3. 实际应用价值](#3. 实际应用价值)

预训练阶段：自监督学习的基础

[1. 核心任务](#1. 核心任务)

[2. 关键优势](#2. 关键优势)

[3. 性能优化策略](#3. 性能优化策略)

监督微调(SFT)：指令遵循能力的培养

[1. 发展历程](#1. 发展历程)

[2. 两种流派](#2. 两种流派)

[3. AutoChat：数量与质量的结合](#3. AutoChat：数量与质量的结合)

强化学习(RLHF)：人类偏好的对齐

[1. 为什么需要RLHF？](#1. 为什么需要RLHF？)

[2. RLHF三阶段流程](#2. RLHF三阶段流程)

[3. OpenAI 的 RLHF 实践](#3. OpenAI 的 RLHF 实践)

[4. 开源社区的挑战与突破](#4. 开源社区的挑战与突破)

[未来展望：从 0-60 分到 60-100 分](#未来展望：从 0-60 分到 60-100 分)

[1. SFT 的双重目标](#1. SFT 的双重目标)

[2. RLHF 的扩展应用](#2. RLHF 的扩展应用)

[3. 核心成功要素](#3. 核心成功要素)

总结

本内容将系统梳理大模型训练的完整生命周期，深入解析预训练、监督微调(SFT)、强化学习(RLHF)三个核心阶段，并介绍如何通过 Scaling Law 等技术预测和优化模型性能。

AI发展的三个阶段

从 1956 年达特茅斯会议至今，人工智能经历了三个重要发展阶段：

1. 符号智能时代（1950s-1980s）

• 核心特征：专家手工构建规则库和知识库
• 典型应用：专家系统
• 主要局限：
- • 规则难以穷尽枚举
- • 人工构建成本极高
- • 无法处理规则库未覆盖的任务

2. 专用智能时代（1990s-2010s）

• 核心特征：数据驱动的机器学习，针对特定任务训练专用模型
• 技术突破：多层神经网络、反向传播算法
• 主要局限：
- • 每个任务需要独立标注数据集
- • 标注成本高昂
- • 模型泛化能力有限

3. 大模型时代（2018 年至今）

• 核心特征：统一模型解决多样化任务
• 技术标志：BERT、GPT 等预训练语言模型
• 关键优势：
- • 利用海量无标注数据进行自监督学习
- • 单一模型支持多任务
- • 能力呈现涌现特性

大模型的核心特性：量变到质变的涌现

1. 涌现智能(Emergent Intelligence)

• 现象描述：小模型无法完成的任务，大模型突然能够完成
• 表现形式：在复杂任务上出现阶跃式性能提升
• 根本原因：参数规模、数据规模、计算量的指数级增长

2. Scaling Law：性能可预测性

OpenAI 提出的 Scaling Law 揭示了模型性能与资源投入的定量关系：

损失函数与参数量的关系：

核心发现：

• 损失函数与参数量、数据量均呈幂律关系
• 计算量 C ≈ 6 × 参数量 × 数据量
• 在相同计算预算下，存在最优的参数量与数据量配比

3. 实际应用价值

• 性能预测：用 1/1000-1/10000 的计算量预测大模型性能
• 资源配置：找到给定计算预算下的最优超参数配置
• 效率提升：DeepMind 的 Chinchilla 模型用 70B 参数超越 530B 参数的基线模型

预训练阶段：自监督学习的基础

1. 核心任务

• Next Token Prediction：根据前文预测下一个词
• Masked Language Modeling：预测被掩码的词语（如 BERT）

2. 关键优势

• 无需人工标注：只要有原始语料即可生成训练样本
• 数据近乎无限：可利用互联网上的所有文本数据
• 知识覆盖面广：学习到丰富的世界知识

3. 性能优化策略

• 高质量数据筛选：FiD 工作表明，1.3B 模型用 1% 的教科书质量数据即可在特定情况下超越 GPT-3.5
• 数据多样性：HuggingFace 研究显示，高质量数据可显著加快收敛速度
• MiniCPM实践：2B 模型仅用 Gemma 7B 1/6的 token 量，性能接近 Gemma 7B

监督微调(SFT)：指令遵循能力的培养

1. 发展历程

• Instruction Tuning：Google 发现模型对指令具有泛化能力
• 对话形式微调：InstructGPT/ChatGPT 采用对话数据格式
• Self-Instruct：Alpaca 使用 ChatGPT 自动生成训练数据

2. 两种流派

数量派

• 自动生成百万级 SFT 数据
• 期望通过量变产生质变
• 代表：Alpaca

质量派

• 精心构造少量高质量数据
• 注重数据多样性和复杂性
• 代表：InstructGPT(仅 1 万条数据)、LIMA(仅 1000 条 prompt)

3. AutoChat：数量与质量的结合

AutoChat 通过三个维度构建高质量多样化数据：

• Questions about World

基于 Wikipedia 实体和多样化主题生成问题
• Creation and Writing

覆盖新闻、代码、论文、报告等多种材料类型
• Assistant Materials

从 C4 语料库提取片段，反向生成对应指令

效果验证：OASST-LM 成为社区首个在 Alpaca-Eval 达到 80 分的开源模型。

强化学习(RLHF)：人类偏好的对齐

1. 为什么需要RLHF？

• SFT的局限：强制模型拟合单一"正确答案"，但很多任务有多个合理答案
• 目标不一致：SFT 的优化目标与最终用户体验目标不符
• 反馈学习：更符合人类从反馈中学习的认知模式

2. RLHF三阶段流程

• 监督微调(SFT)：收集演示数据，训练初始策略
• 奖励模型训练：收集对比数据，训练奖励模型
• 强化学习优化：基于奖励模型优化策略

3. OpenAI 的 RLHF 实践

• 数据规模：33,000 个 prompt，每条生成 4-9 个回复
• 奖励模型：使用 200K 对比数据训练
• 人工标注：详细标注文档，多维度评价生成质量

4. 开源社区的挑战与突破

主要困难：

• 偏好数据标注成本高
• 开源偏好数据集规模小、多样性差
• 奖励模型效果不显著

AutoFeedback解决方案：

• 数据规模：65K prompt，300K+ 偏好对
• 模型多样性：使用 GPT、LLaMA、MPT、Falcon 等多个模型生成答案
• 评价维度：GPT-4 从四个维度进行比较打分并给出解释

效果：AutoFeedback 训练的模型在 UP 和 EO 评测中达到 81.17 分，显著优于其他开源方案。

未来展望：从 0-60 分到 60-100 分

1. SFT 的双重目标

• 0-60 分：让模型输出形式符合用户偏好，激发预训练知识
• 60-100 分：提升推理、生成和知识运用能力，解决复杂任务

2. RLHF 的扩展应用

• 多智能体交互：接受多方反馈
• 工具使用：长距离、多步骤的反馈机制
• 具身智能：从环境交互中学习

3. 核心成功要素

• 数据多样性：覆盖各种任务类型和难度级别
• 可扩展性：能够持续扩展数据规模和质量
• 反馈机制：建立有效的偏好学习和对齐机制

总结

大模型训练是一个复杂的系统工程，涉及预训练、SFT、RLHF 等多个阶段。每个阶段都有其独特的挑战和优化策略：

• 预训练阶段：关注数据质量和 Scaling Law 指导下的资源配置
• SFT 阶段：平衡数据数量与质量，注重指令多样性
• RLHF 阶段：构建高质量偏好数据，训练有效的奖励模型

通过这篇文章，大家深入理解这些训练方法论，不仅有助于模型开发，更能为AI应用落地提供坚实的技术基础。后续课程将深入讲解大模型训练、推理与优化技术，包括模型微调、分布式训练、性能优化等高级主题。