03-深度学习基础：指令微调与RLHF

指令微调与RLHF：让大模型理解人类意图

一、为什么需要指令微调？

1.1 预训练模型的局限

python 复制代码

import numpy as np
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

print("=" * 60)
print("预训练模型的局限：会填空，但不会对话")
print("=" * 60)

# 预训练模型 vs 指令微调模型
fig, axes = plt.subplots(1, 2, figsize=(14, 6))

# 预训练模型行为
ax1 = axes[0]
ax1.axis('off')
ax1.set_title('预训练模型：完形填空', fontsize=12)

pre_train_examples = [
    ("输入: " + "中国的首都是[MASK]", "输出: 北京"),
    ("输入: " + "I love you because you are [MASK]", "输出: kind"),
    ("输入: " + "The capital of France is [MASK]", "输出: Paris"),
]

y_pos = 0.7
for text, output in pre_train_examples:
    ax1.text(0.05, y_pos, text, fontsize=9, fontfamily='monospace')
    ax1.text(0.7, y_pos, output, fontsize=9, color='green', fontfamily='monospace')
    y_pos -= 0.15

ax1.text(0.5, 0.2, "模型学会了语言模式\n但不会遵循指令", ha='center', fontsize=10,
         bbox=dict(boxstyle='round', facecolor='lightcoral'))

# 指令微调模型行为
ax2 = axes[1]
ax2.axis('off')
ax2.set_title('指令微调模型：遵循指令', fontsize=12)

instruction_examples = [
    ("指令: 请告诉我中国的首都是什么？", "回答: 中国的首都是北京。"),
    ("指令: 用一句话解释什么是机器学习", "回答: 机器学习是让计算机从数据中学习规律的技术。"),
    ("指令: 将'Hello'翻译成中文", "回答: 你好"),
]

y_pos = 0.7
for text, output in instruction_examples:
    ax2.text(0.05, y_pos, text, fontsize=9, fontfamily='monospace')
    ax2.text(0.7, y_pos, output, fontsize=9, color='green', fontfamily='monospace')
    y_pos -= 0.15

ax2.text(0.5, 0.2, "模型能理解并执行人类指令", ha='center', fontsize=10,
         bbox=dict(boxstyle='round', facecolor='lightgreen'))

plt.suptitle('从完形填空到智能对话', fontsize=14)
plt.tight_layout()
plt.show()

print("\n💡 预训练模型 vs 指令微调模型:")
print("   预训练模型: 擅长完形填空、文本补全")
print("   指令微调模型: 能理解意图、遵循指令、对话交互")

二、指令微调（Instruction Tuning）

2.1 指令微调的核心思想

python 复制代码

def visualize_instruction_tuning():
    """可视化指令微调的核心思想"""
    
    fig, axes = plt.subplots(1, 2, figsize=(14, 6))
    
    # 1. 指令数据格式
    ax1 = axes[0]
    ax1.axis('off')
    ax1.set_title('指令数据格式', fontsize=12)
    
    data_format = """
    {
        "instruction": "解释什么是机器学习",
        "input": "", 
        "output": "机器学习是人工智能的一个分支，...
                     它让计算机能够从数据中学习规律。"
    }
    
    {
        "instruction": "将以下句子翻译成英文",
        "input": "我爱编程",
        "output": "I love programming"
    }
    
    {
        "instruction": "判断以下评论的情感",
        "input": "这个产品太棒了！",
        "output": "正面"
    }
    """
    
    ax1.text(0.05, 0.95, data_format, transform=ax1.transAxes, fontsize=9,
            verticalalignment='top', fontfamily='monospace')
    
    # 2. 训练过程
    ax2 = axes[1]
    ax2.axis('off')
    ax2.set_title('指令微调训练过程', fontsize=12)
    
    # 流程图
    steps = [
        ("预训练模型", 0.2),
        ("指令数据集", 0.5),
        ("指令微调", 0.5),
        ("对话模型", 0.8)
    ]
    
    # 绘制节点
    for step, x in steps:
        if step == "指令微调":
            circle = plt.Circle((x, 0.5), 0.12, color='lightgreen', ec='black')
            ax2.add_patch(circle)
            ax2.text(x, 0.5, step, ha='center', va='center', fontsize=9, fontweight='bold')
        else:
            circle = plt.Circle((x, 0.5), 0.1, color='lightblue', ec='black')
            ax2.add_patch(circle)
            ax2.text(x, 0.5, step, ha='center', va='center', fontsize=9)
    
    # 箭头
    ax2.annotate('', xy=(0.38, 0.5), xytext=(0.3, 0.5),
                arrowprops=dict(arrowstyle='->', lw=2))
    ax2.annotate('', xy=(0.62, 0.5), xytext=(0.62, 0.5),
                arrowprops=dict(arrowstyle='->', lw=2))
    ax2.annotate('', xy=(0.9, 0.5), xytext=(0.74, 0.5),
                arrowprops=dict(arrowstyle='->', lw=2))
    
    ax2.text(0.5, 0.2, '使用指令数据微调预训练模型', ha='center', fontsize=10,
            bbox=dict(boxstyle='round', facecolor='lightyellow'))
    
    plt.suptitle('指令微调：教模型理解人类指令', fontsize=14)
    plt.tight_layout()
    plt.show()

visualize_instruction_tuning()

2.2 指令数据的构建

python 复制代码

def visualize_instruction_data():
    """可视化指令数据的构建"""
    
    fig, axes = plt.subplots(2, 2, figsize=(14, 10))
    
    # 1. 数据来源
    ax1 = axes[0, 0]
    ax1.axis('off')
    ax1.set_title('指令数据来源', fontsize=11)
    
    sources = [
        ("📝 人工标注", "专家编写高质量指令"),
        ("🔄 模板生成", "基于现有模板自动生成"),
        ("📚 公开数据集", "FLAN, SuperNI, T0"),
        ("🤖 模型自生成", "Self-Instruct"),
        ("👥 用户反馈", "真实对话数据")
    ]
    
    y_pos = 0.75
    for source, desc in sources:
        ax1.text(0.05, y_pos, source, fontsize=9, fontweight='bold')
        ax1.text(0.35, y_pos, desc, fontsize=9)
        y_pos -= 0.12
    
    # 2. 任务多样性
    ax2 = axes[0, 1]
    ax2.axis('off')
    ax2.set_title('任务类型多样性', fontsize=11)
    
    tasks = {
        '生成': ['写作', '翻译', '摘要', '代码生成'],
        '理解': ['分类', '情感分析', '实体识别'],
        '推理': ['数学', '逻辑推理', '常识推理'],
        '对话': ['问答', '闲聊', '角色扮演'],
        '转换': ['格式转换', '风格转换', '语言转换']
    }
    
    y_pos = 0.75
    for task_type, examples in tasks.items():
        ax2.text(0.05, y_pos, f"• {task_type}:", fontsize=9, fontweight='bold')
        ax2.text(0.25, y_pos, ', '.join(examples), fontsize=8)
        y_pos -= 0.12
    
    # 3. Self-Instruct流程
    ax3 = axes[1, 0]
    ax3.axis('off')
    ax3.set_title('Self-Instruct：自动生成指令数据', fontsize=11)
    
    self_instruct_steps = [
        ("1. 种子指令", 0.2, 0.7),
        ("2. 模型生成\n新指令", 0.5, 0.7),
        ("3. 过滤质量", 0.5, 0.4),
        ("4. 生成输出", 0.8, 0.7),
        ("5. 人工筛选", 0.8, 0.4),
        ("6. 加入种子集", 0.5, 0.15)
    ]
    
    for step, x, y in self_instruct_steps:
        circle = plt.Circle((x, y), 0.07, color='lightblue', ec='black')
        ax3.add_patch(circle)
        ax3.text(x, y, step, ha='center', va='center', fontsize=7)
    
    # 连接线
    ax3.annotate('', xy=(0.43, 0.7), xytext=(0.27, 0.7), arrowprops=dict(arrowstyle='->', lw=1))
    ax3.annotate('', xy=(0.57, 0.7), xytext=(0.57, 0.47), arrowprops=dict(arrowstyle='->', lw=1))
    ax3.annotate('', xy=(0.73, 0.7), xytext=(0.63, 0.7), arrowprops=dict(arrowstyle='->', lw=1))
    ax3.annotate('', xy=(0.73, 0.4), xytext=(0.73, 0.63), arrowprops=dict(arrowstyle='->', lw=1))
    ax3.annotate('', xy=(0.57, 0.4), xytext=(0.63, 0.4), arrowprops=dict(arrowstyle='->', lw=1))
    ax3.annotate('', xy=(0.5, 0.22), xytext=(0.57, 0.33), arrowprops=dict(arrowstyle='->', lw=1))
    
    ax3.set_xlim(0, 1)
    ax3.set_ylim(0, 1)
    
    # 4. 数据规模对比
    ax4 = axes[1, 1]
    
    models = ['BERT', 'GPT-2', 'GPT-3', 'ChatGPT', 'GPT-4']
    instruction_data = [0, 0, 12, 1000, 5000]  # 指令数据量(K)
    pretrain_data = [16, 40, 570, 1000, 13000]  # 预训练数据量(GB)
    
    x = np.arange(len(models))
    width = 0.35
    
    ax4.bar(x - width/2, instruction_data, width, label='指令数据 (K)', color='lightgreen')
    ax4.bar(x + width/2, pretrain_data, width, label='预训练数据 (GB)', color='lightblue')
    ax4.set_xlabel('模型')
    ax4.set_ylabel('数据量')
    ax4.set_title('预训练数据 vs 指令数据')
    ax4.set_xticks(x)
    ax4.set_xticklabels(models)
    ax4.legend()
    
    plt.suptitle('指令数据的构建：少量但高质量', fontsize=14)
    plt.tight_layout()
    plt.show()

visualize_instruction_data()

三、RLHF：人类反馈强化学习

3.1 RLHF的核心流程

python 复制代码

def visualize_rlhf():
    """可视化RLHF的完整流程"""
    
    fig, axes = plt.subplots(1, 2, figsize=(14, 8))
    
    # 1. RLHF三阶段
    ax1 = axes[0]
    ax1.axis('off')
    ax1.set_title('RLHF三阶段流程', fontsize=12)
    
    # 阶段1
    stage1 = plt.Rectangle((0.05, 0.65), 0.4, 0.25,
                            facecolor='lightblue', ec='black')
    ax1.add_patch(stage1)
    ax1.text(0.25, 0.77, '阶段1', ha='center', va='center', fontsize=10, fontweight='bold')
    ax1.text(0.25, 0.7, '监督微调', ha='center', va='center', fontsize=9)
    ax1.text(0.25, 0.67, '(SFT)', ha='center', va='center', fontsize=8)
    
    # 阶段2
    stage2 = plt.Rectangle((0.55, 0.65), 0.4, 0.25,
                            facecolor='lightgreen', ec='black')
    ax1.add_patch(stage2)
    ax1.text(0.75, 0.77, '阶段2', ha='center', va='center', fontsize=10, fontweight='bold')
    ax1.text(0.75, 0.7, '训练奖励模型', ha='center', va='center', fontsize=9)
    ax1.text(0.75, 0.67, '(RM)', ha='center', va='center', fontsize=8)
    
    # 阶段3
    stage3 = plt.Rectangle((0.3, 0.3), 0.4, 0.25,
                            facecolor='lightcoral', ec='black')
    ax1.add_patch(stage3)
    ax1.text(0.5, 0.42, '阶段3', ha='center', va='center', fontsize=10, fontweight='bold')
    ax1.text(0.5, 0.35, '强化学习优化', ha='center', va='center', fontsize=9)
    ax1.text(0.5, 0.32, '(PPO)', ha='center', va='center', fontsize=8)
    
    # 箭头
    ax1.annotate('', xy=(0.55, 0.775), xytext=(0.45, 0.775),
                arrowprops=dict(arrowstyle='->', lw=2))
    ax1.annotate('', xy=(0.5, 0.55), xytext=(0.5, 0.65),
                arrowprops=dict(arrowstyle='->', lw=2))
    ax1.annotate('', xy=(0.5, 0.3), xytext=(0.5, 0.55),
                arrowprops=dict(arrowstyle='->', lw=2))
    
    # 2. 奖励模型训练
    ax2 = axes[1]
    ax2.axis('off')
    ax2.set_title('奖励模型训练', fontsize=12)
    
    # 比较示例
    responses = [
        ("回答A: 北京是中国的首都", "好"),
        ("回答B: 我不知道", "差"),
    ]
    
    y_pos = 0.7
    for response, label in responses:
        ax2.text(0.1, y_pos, response, fontsize=9, fontfamily='monospace')
        if label == "好":
            ax2.text(0.7, y_pos, label, fontsize=9, color='green', fontweight='bold')
        else:
            ax2.text(0.7, y_pos, label, fontsize=9, color='red', fontweight='bold')
        y_pos -= 0.12
    
    ax2.text(0.5, 0.4, '奖励模型学习人类偏好', ha='center', fontsize=10,
            bbox=dict(boxstyle='round', facecolor='lightyellow'))
    
    ax2.text(0.5, 0.2, 'RLHF公式:\n'
             'max E[r(x,y)] - β·KL(π_θ||π_ref)', 
             ha='center', fontsize=9, fontfamily='monospace',
             bbox=dict(boxstyle='round', facecolor='lightgray'))
    
    plt.suptitle('RLHF：通过人类反馈优化模型行为', fontsize=14)
    plt.tight_layout()
    plt.show()

visualize_rlhf()

3.2 奖励模型训练

python 复制代码

def visualize_reward_model():
    """可视化奖励模型训练"""
    
    fig, axes = plt.subplots(1, 2, figsize=(14, 6))
    
    # 1. 偏好数据收集
    ax1 = axes[0]
    ax1.axis('off')
    ax1.set_title('人类偏好数据收集', fontsize=12)
    
    # 对话示例
    prompt = "解释什么是AI"
    responses = [
        "AI是人工智能的缩写，是让机器模拟人类智能的技术。",
        "AI就是机器人。",
        "Artificial Intelligence，简称AI。"
    ]
    
    ax1.text(0.5, 0.85, f"问题: {prompt}", ha='center', fontsize=10,
            bbox=dict(boxstyle='round', facecolor='lightgray'))
    
    y_pos = 0.7
    for i, response in enumerate(responses):
        ax1.text(0.1, y_pos, f"{chr(65+i)}. {response}", fontsize=8)
        y_pos -= 0.12
    
    ax1.text(0.5, 0.35, "请选择最好的回答: ______", ha='center', fontsize=10,
            bbox=dict(boxstyle='round', facecolor='lightyellow'))
    
    # 2. 排序损失
    ax2 = axes[1]
    ax2.axis('off')
    ax2.set_title('偏好排序损失', fontsize=12)
    
    loss_formula = """
    偏好排序损失 (Ranking Loss):
    
    L = -log(σ(r(x, y_w) - r(x, y_l)))
    
    其中:
    • x: 输入提示
    • y_w: 偏好回答 (win)
    • y_l: 非偏好回答 (lose)
    • r: 奖励模型输出
    • σ: sigmoid函数
    
    训练目标: 让好回答的分数 > 差回答的分数
    """
    
    ax2.text(0.05, 0.95, loss_formula, transform=ax2.transAxes, fontsize=9,
            verticalalignment='top', fontfamily='monospace')
    
    plt.suptitle('奖励模型：学习人类偏好', fontsize=14)
    plt.tight_layout()
    plt.show()

visualize_reward_model()

四、PPO：强化学习优化

4.1 PPO算法原理

python 复制代码

def visualize_ppo():
    """可视化PPO算法"""
    
    fig, axes = plt.subplots(1, 2, figsize=(14, 6))
    
    # 1. PPO目标函数
    ax1 = axes[0]
    ax1.axis('off')
    ax1.set_title('PPO优化目标', fontsize=12)
    
    ppo_formula = """
    PPO-CLIP Loss:
    
    L(θ) = E[min(r_t(θ)·A_t, clip(r_t(θ), 1-ε, 1+ε)·A_t)]
    
    其中:
    • r_t(θ) = π_θ(a_t|s_t) / π_old(a_t|s_t)   (重要性采样比率)
    • A_t: 优势函数 (Advantage)
    • ε: 裁剪范围 (通常0.2)
    
    目的: 限制每次更新的步长，防止破坏性更新
    """
    
    ax1.text(0.05, 0.95, ppo_formula, transform=ax1.transAxes, fontsize=9,
            verticalalignment='top', fontfamily='monospace')
    
    # 2. 更新过程
    ax2 = axes[1]
    ax2.axis('off')
    ax2.set_title('PPO更新过程', fontsize=12)
    
    steps = [
        ("1. 生成回答", 0.2),
        ("2. 奖励模型打分", 0.4),
        ("3. 计算优势", 0.6),
        ("4. PPO更新", 0.8)
    ]
    
    for step, x in steps:
        circle = plt.Circle((x, 0.6), 0.08, color='lightblue', ec='black')
        ax2.add_patch(circle)
        ax2.text(x, 0.6, step, ha='center', va='center', fontsize=7)
        
        if x < 0.8:
            ax2.annotate('', xy=(x+0.18, 0.6), xytext=(x+0.1, 0.6),
                        arrowprops=dict(arrowstyle='->', lw=1))
    
    ax2.text(0.5, 0.3, '反复迭代，逐步优化', ha='center', fontsize=10,
            bbox=dict(boxstyle='round', facecolor='lightgreen'))
    
    plt.suptitle('PPO：稳定的大模型强化学习算法', fontsize=14)
    plt.tight_layout()
    plt.show()

visualize_ppo()

五、指令微调 vs RLHF

python 复制代码

def visualize_comparison():
    """对比指令微调和RLHF"""
    
    fig, ax = plt.subplots(figsize=(12, 8))
    ax.axis('off')
    
    comparison = """
    ╔═══════════════════════════════════════════════════════════════════════════════╗
    ║                   指令微调 vs RLHF                                            ║
    ╠═══════════════════════════════════════════════════════════════════════════════╣
    ║                                                                               ║
    ║   对比维度        指令微调 (SFT)              RLHF                            ║
    ║   ───────────────────────────────────────────────────────────────────────────║
    ║   数据需求        指令-输出对                偏好比较数据                      ║
    ║   数据量          数千-数万条                数十万条偏好对                    ║
    ║   训练方式        监督学习                  强化学习                          ║
    ║   优化目标        最大似然估计              最大化奖励                        ║
    ║   输出质量        较好                      更好、更符合人类偏好              ║
    ║   多样性          可能下降                  保持良好                          ║
    ║   训练复杂度      简单                      复杂                              ║
    ║   代表模型        Alpaca, Vicuna            ChatGPT, Claude                   ║
    ║                                                                               ║
    ║   使用建议:                                                                   ║
    ║   • 入门级应用 → 指令微调 (快速、简单)                                        ║
    ║   • 生产级应用 → RLHF (质量更高)                                             ║
    ║   • 结合使用 → SFT预热 + RLHF精调                                            ║
    ║                                                                               ║
    ╚═══════════════════════════════════════════════════════════════════════════════╝
    """
    
    ax.text(0.05, 0.95, comparison, transform=ax.transAxes, fontsize=10,
            verticalalignment='top', fontfamily='monospace')
    ax.set_title('指令微调 vs RLHF', fontsize=14, pad=20)
    
    plt.tight_layout()
    plt.show()

visualize_comparison()

六、学习检查清单

指令微调

理解指令数据的格式
掌握指令微调的训练方法
知道如何构建高质量的指令数据
了解Self-Instruct方法

RLHF

理解RLHF的三阶段流程
掌握奖励模型的训练方法
了解PPO算法的原理
知道RLHF的挑战和局限

七、总结

指令微调 vs RLHF：

特性	指令微调	RLHF
核心思想	模仿人类指令-回答	学习人类偏好
数据格式	(指令, 输出)	(偏好对)
训练算法	监督学习	强化学习
效果	基础对话能力	高质量、安全、对齐
成本	低	高

发展历程：

复制代码

预训练模型 → 指令微调(SFT) → 奖励模型(RM) → RLHF(PPO) → 对齐模型
   ↓              ↓               ↓              ↓
  基础         学会对话        理解偏好        高质量输出

记住：

指令微调是基础，RLHF是精调
RLHF让模型更符合人类偏好
高质量数据比算法更重要
安全对齐是重要研究方向