斯坦福 CS146S - Wk01 编码入门 LLM 和人工智能开发


Wk01 | LLM炼成记:预训练、微调与强化学习全流程

视频来源:YouTube - LLM训练全流程讲解


一、总体概述

本视频系统讲解了大语言模型(LLM)从原始数据可用AI助手 的完整工程流水线,核心分为三大训练阶段,以及用户侧的提示工程技术。


二、阶段一:预训练(Pre-training)

2.1 目标

将大量互联网文本压缩为"知识基底"------本质是对人类知识的概率性有损压缩

2.2 数据采集

  • 主要来源 :Common Crawl(自2007年起索引网页,已收录超 27亿 个页面)
  • 辅助来源:维基百科、学术期刊、GitHub 公开代码
  • 代表性数据集 :FineWeb,约 44 TB 文本,折合约 15万亿个 token

2.3 数据清洗

过滤内容包括:垃圾邮件、恶意软件、种族歧视内容、成人内容、重复文本。过滤过程极为严苛。

2.4 核心机制:自回归预测

  • LLM 是自回归模型 ,核心任务是预测序列中下一个 token 的概率
  • 示例:输入"猫在......"→ 预测"垫子上"
  • 上下文窗口 (工作记忆):
    • 旧模型(GPT-2):约 1,000 token
    • 现代模型:数十万至百万 token

2.5 模型参数规模

模型 参数量
GPT-2 约 16 亿
GPT-4(报道) 约 1.8 万亿

训练 = 反复微调这些参数(类比"调音台旋钮"),使预测吻合真实数据,每秒数百万次运算。

2.6 计算成本

  • 典型 GPU(H100 节点):约 $3/GPU/小时
  • 训练一个大型基础模型:数千万美元
  • 结论:全球只有极少数机构能独立训练基础模型

2.7 预训练的局限

预训练后的基础模型

  • ✅ 学会了知识的语法
  • ❌ 缺乏推理能力
  • ❌ 无法辨别真实与常见内容的区别
  • ❌ 不会对话,只会"自动补全"

三、阶段二:监督微调(Supervised Fine-Tuning,SFT)

3.1 目标

塑造模型的人格,使其成为一个"乐于助人、诚实可靠、无害"的对话助手。

3.2 与预训练的区别

维度 预训练 监督微调
数据量 15 万亿 token 数十万条对话
时间成本 数月 数小时
计算成本 极高 远低于预训练
数据来源 互联网原始文本 人工标注高质量对话

3.3 实施方式

  • 雇佣人类标注员,提供严格详细的指导方针
  • 标注员为各类提示词撰写理想的助手回复
  • 模型通过示例学习目标行为

3.4 本质理解

你与AI对话,本质上是在与一个神经网络交互------它模拟的是严格遵循指导方针、技能出众的人类标注员。


四、阶段三:强化学习(Reinforcement Learning,RL)

4.1 目标

教会模型如何思考,而不只是说什么。

4.2 与 SFT 的区别

  • SFT:教模型"说什么"
  • RL:教模型"怎么想"

4.3 适用领域

可验证的领域(有明确正确答案):数学、代码、棋类。

模型自行探索推理路径 → 逐渐涌现认知策略

4.4 思维链(Chain of Thought,CoT)

  • 由于每个 token 的计算量有限,模型学会将推理分散到多个 token
  • 不让模型逐步思考 = 让它在没有草稿纸的情况下做微积分
  • 直接要求输出答案 → 持续出错;引导逐步推演 → 准确率大幅提升

4.5 基于人类反馈的强化学习(RLHF)

适用于主观任务(写笑话、说服性文章等):

  1. 训练第二个 AI 作为奖励模型(充当人类评判者)
  2. 人类对不同 AI 输出排名
  3. 奖励模型学习复现这些排名,成为人类品味的代理

主要缺陷

  • 模型会学会"欺骗"奖励模型,追求高分而非真正质量
  • RLHF 是短暂有效的过程,模型终将找到漏洞
  • 人类监督始终不可或缺

五、提示工程(Prompt Engineering)

5.1 少样本提示(K-shot Prompting)

在提示词内直接给出 1~5 个示例,模型即可即时适应特定风格或格式,无需重新训练。

5.2 思维链提示(Chain of Thought)

加入"让我们一步步思考"(零样本 CoT)可显著提升准确率,解锁模型的推理能力。

5.3 检索增强生成(RAG)

解决问题:模型知识冻结于训练截止日期,无法获取最新信息。

工作流程

  1. 模型判断需要当前信息
  2. 生成特殊 token 调用外部工具(如网络搜索)
  3. 搜索结果注入上下文窗口
  4. 模型基于最新事实生成回答

RAG 是对抗幻觉的关键防线

5.4 自洽性(Self-Consistency)

同一问题提问 5 次 → 强制找出 5 条不同推理路径 → 取多数答案 → 降低随机错误。

5.5 反思(Reflection)

将错误信息反馈回提示词 → 让模型批判并修正自己的代码 → 实时从错误中学习。尤其适用于编程场景。


六、专业应用场景

6.1 核心理念

你不会被 AI 取代,但会被懂得如何使用 AI 的能干工程师取代。

LLM 不是替代工程师,而是将普通工程师增强为超高效工程师

6.2 实际效率提升

任务场景 传统耗时 使用 LLM 后
分析错误堆栈、定位问题逻辑 ~60 分钟 节省 45 分钟
跨 40 个文件批量更新 API ~3 小时 90 秒完成
性能瓶颈分析与修复 ~60 分钟 5 分钟搞定
低覆盖代码生成单元测试 数小时人工 隔夜自动完成

6.3 最佳提示实践

角色提示(Role Prompting)

明确定义人格:

"你是一位热爱编程的助手,水平相当于高级软件开发工程师。"

结构化提示

粘贴复杂数据时使用 <error><log> 等标签,便于模型高效解析。

持久化上下文

维护一份包含业务逻辑和命名规范的文件(如 agents.md),每次会话时粘贴进去,显著提升跨会话准确率。


七、核心局限与注意事项

7.1 "瑞士奶酪能力模型"

LLM 的能力存在奇特的不规则短板

  • ✅ 能解答奥林匹克级别数学难题
  • ❌ 可能无法正确比较 9.1 和 9.9

孔洞不对齐------表面强大,内部有盲区。

7.2 正确使用姿势

  • 将 LLM 视为随机性工具
  • 始终核验其输出
  • 运用上述技术弥补其局限

八、延伸思考

当大语言模型通过纯粹强化学习不受人类逻辑约束时,可能涌现出人类无法构想的策略------正如 AlphaGo 发现的"第37手"。

如果解决复杂商业问题的最优方法,是人类根本无法构想出来的东西,对我们意味着什么?

这是关于人类与 AI 协作未来的核心命题。

相关推荐
久违 °2 小时前
【AI-Agent】TagMatrix 数据标注工具开发
人工智能·数据分析·go·agent·数据隐私
AI360labs_atyun2 小时前
腾讯推出电子牛马Marvis,好用吗?
人工智能·科技·ai
Dfreedom.2 小时前
Windows、虚拟机、开发板组网通信原理及调试通联步骤
人工智能·windows·部署·边缘计算·开发板·模型加速
3DVisionary2 小时前
蓝光三维扫描:医疗制造的精度焦虑怎么解
人工智能·算法·制造·蓝光三维扫描·医疗制造·三维检测·义齿检测
Are_You_Okkk_2 小时前
基于MonkeyCode解析AI研发新模式,根治开发低效痛点
大数据·人工智能·开源·ai编程
好评笔记2 小时前
机器学习面试八股——常用损失函数
人工智能·深度学习·算法·机器学习·校招
weixin_468466852 小时前
全局与局部注意力机制新手实战指南
人工智能·python·深度学习·算法·自然语言处理·transformer·注意力机制
weixin_468466852 小时前
工业相机成像原理新手入门指南
人工智能·自动化·机器视觉·工业相机·光学·光学系统·成像原理
回眸&啤酒鸭2 小时前
【回眸】CSDN新增功能测评——AI数字营销之内容创作
人工智能
小糖学代码3 小时前
LLM系列:环境搭建:5.Python-dotenv 环境变量管理
人工智能·python·深度学习·神经网络