斯坦福 CS146S - Wk01 编码入门 LLM 和人工智能开发


Wk01 | LLM炼成记:预训练、微调与强化学习全流程

视频来源:YouTube - LLM训练全流程讲解


一、总体概述

本视频系统讲解了大语言模型(LLM)从原始数据可用AI助手 的完整工程流水线,核心分为三大训练阶段,以及用户侧的提示工程技术。


二、阶段一:预训练(Pre-training)

2.1 目标

将大量互联网文本压缩为"知识基底"------本质是对人类知识的概率性有损压缩

2.2 数据采集

  • 主要来源 :Common Crawl(自2007年起索引网页,已收录超 27亿 个页面)
  • 辅助来源:维基百科、学术期刊、GitHub 公开代码
  • 代表性数据集 :FineWeb,约 44 TB 文本,折合约 15万亿个 token

2.3 数据清洗

过滤内容包括:垃圾邮件、恶意软件、种族歧视内容、成人内容、重复文本。过滤过程极为严苛。

2.4 核心机制:自回归预测

  • LLM 是自回归模型 ,核心任务是预测序列中下一个 token 的概率
  • 示例:输入"猫在......"→ 预测"垫子上"
  • 上下文窗口 (工作记忆):
    • 旧模型(GPT-2):约 1,000 token
    • 现代模型:数十万至百万 token

2.5 模型参数规模

模型 参数量
GPT-2 约 16 亿
GPT-4(报道) 约 1.8 万亿

训练 = 反复微调这些参数(类比"调音台旋钮"),使预测吻合真实数据,每秒数百万次运算。

2.6 计算成本

  • 典型 GPU(H100 节点):约 $3/GPU/小时
  • 训练一个大型基础模型:数千万美元
  • 结论:全球只有极少数机构能独立训练基础模型

2.7 预训练的局限

预训练后的基础模型

  • ✅ 学会了知识的语法
  • ❌ 缺乏推理能力
  • ❌ 无法辨别真实与常见内容的区别
  • ❌ 不会对话,只会"自动补全"

三、阶段二:监督微调(Supervised Fine-Tuning,SFT)

3.1 目标

塑造模型的人格,使其成为一个"乐于助人、诚实可靠、无害"的对话助手。

3.2 与预训练的区别

维度 预训练 监督微调
数据量 15 万亿 token 数十万条对话
时间成本 数月 数小时
计算成本 极高 远低于预训练
数据来源 互联网原始文本 人工标注高质量对话

3.3 实施方式

  • 雇佣人类标注员,提供严格详细的指导方针
  • 标注员为各类提示词撰写理想的助手回复
  • 模型通过示例学习目标行为

3.4 本质理解

你与AI对话,本质上是在与一个神经网络交互------它模拟的是严格遵循指导方针、技能出众的人类标注员。


四、阶段三:强化学习(Reinforcement Learning,RL)

4.1 目标

教会模型如何思考,而不只是说什么。

4.2 与 SFT 的区别

  • SFT:教模型"说什么"
  • RL:教模型"怎么想"

4.3 适用领域

可验证的领域(有明确正确答案):数学、代码、棋类。

模型自行探索推理路径 → 逐渐涌现认知策略

4.4 思维链(Chain of Thought,CoT)

  • 由于每个 token 的计算量有限,模型学会将推理分散到多个 token
  • 不让模型逐步思考 = 让它在没有草稿纸的情况下做微积分
  • 直接要求输出答案 → 持续出错;引导逐步推演 → 准确率大幅提升

4.5 基于人类反馈的强化学习(RLHF)

适用于主观任务(写笑话、说服性文章等):

  1. 训练第二个 AI 作为奖励模型(充当人类评判者)
  2. 人类对不同 AI 输出排名
  3. 奖励模型学习复现这些排名,成为人类品味的代理

主要缺陷

  • 模型会学会"欺骗"奖励模型,追求高分而非真正质量
  • RLHF 是短暂有效的过程,模型终将找到漏洞
  • 人类监督始终不可或缺

五、提示工程(Prompt Engineering)

5.1 少样本提示(K-shot Prompting)

在提示词内直接给出 1~5 个示例,模型即可即时适应特定风格或格式,无需重新训练。

5.2 思维链提示(Chain of Thought)

加入"让我们一步步思考"(零样本 CoT)可显著提升准确率,解锁模型的推理能力。

5.3 检索增强生成(RAG)

解决问题:模型知识冻结于训练截止日期,无法获取最新信息。

工作流程

  1. 模型判断需要当前信息
  2. 生成特殊 token 调用外部工具(如网络搜索)
  3. 搜索结果注入上下文窗口
  4. 模型基于最新事实生成回答

RAG 是对抗幻觉的关键防线

5.4 自洽性(Self-Consistency)

同一问题提问 5 次 → 强制找出 5 条不同推理路径 → 取多数答案 → 降低随机错误。

5.5 反思(Reflection)

将错误信息反馈回提示词 → 让模型批判并修正自己的代码 → 实时从错误中学习。尤其适用于编程场景。


六、专业应用场景

6.1 核心理念

你不会被 AI 取代,但会被懂得如何使用 AI 的能干工程师取代。

LLM 不是替代工程师,而是将普通工程师增强为超高效工程师

6.2 实际效率提升

任务场景 传统耗时 使用 LLM 后
分析错误堆栈、定位问题逻辑 ~60 分钟 节省 45 分钟
跨 40 个文件批量更新 API ~3 小时 90 秒完成
性能瓶颈分析与修复 ~60 分钟 5 分钟搞定
低覆盖代码生成单元测试 数小时人工 隔夜自动完成

6.3 最佳提示实践

角色提示(Role Prompting)

明确定义人格:

"你是一位热爱编程的助手,水平相当于高级软件开发工程师。"

结构化提示

粘贴复杂数据时使用 <error><log> 等标签,便于模型高效解析。

持久化上下文

维护一份包含业务逻辑和命名规范的文件(如 agents.md),每次会话时粘贴进去,显著提升跨会话准确率。


七、核心局限与注意事项

7.1 "瑞士奶酪能力模型"

LLM 的能力存在奇特的不规则短板

  • ✅ 能解答奥林匹克级别数学难题
  • ❌ 可能无法正确比较 9.1 和 9.9

孔洞不对齐------表面强大,内部有盲区。

7.2 正确使用姿势

  • 将 LLM 视为随机性工具
  • 始终核验其输出
  • 运用上述技术弥补其局限

八、延伸思考

当大语言模型通过纯粹强化学习不受人类逻辑约束时,可能涌现出人类无法构想的策略------正如 AlphaGo 发现的"第37手"。

如果解决复杂商业问题的最优方法,是人类根本无法构想出来的东西,对我们意味着什么?

这是关于人类与 AI 协作未来的核心命题。

相关推荐
lbb 小魔仙1 小时前
Ubuntu 22.04 + Windows 本地部署 AI 大模型完全指南:Ollama + Python 调用实战(附国内加速配置)
人工智能·windows·python·ubuntu
IT老兵20251 小时前
nvidia nemo-toolkit框架应用问题汇总
人工智能·python·机器学习·nemo
shamalee1 小时前
2026高效会议纪要:Gemini3.1Pro一键搞定
人工智能
qq_160144871 小时前
零基础两个月后,我拿到了AI应用方向的offer,低门槛转行真实路径
人工智能
alwaysrun1 小时前
Agentic AI与思维链和自我反思简介
人工智能·agent·思维链·思维树·自我反思
geneculture2 小时前
亚符号:人机互助中被忽视的根基——一种认知哲学分析
人工智能·融智学的重要应用·人机间性·符号与规则·亚符号与权重·融智时代杂志
aisifang002 小时前
PDF转Word神器:Gemini3.1Pro一键搞定文档处理
人工智能·pdf·word
东坡肘子2 小时前
让 AI 从称手到称心 -- 肘子的 Swift 周报 #134
人工智能·swiftui·swift
潘祖记2 小时前
# 一行命令让 AI 接管全屋智能:FeyaGate Skill 保姆级接入教程,小米/涂鸦/美的/易微联全搞定
人工智能·后端·asp.net