【1080P】安德烈·卡帕西:深入探索像ChatGPT这样的大语言模型|Andrej Karpathy_哔哩哔哩_bilibili
00:00:00 介绍(introduction)
-
视频目标与背景设定:为什么要做这个 "Deep Dive into LLMs"
-
观众心智模型假设:主要面向技术/半技术听众,希望理解 LLM 内部机制
-
本讲结构预览:从数据、tokenization,到模型内部、训练、推理、微调、RLHF、未来展望
-
强调"直觉理解"比数学推导更为重点(视频多数为直觉 / 概念讲解)
-
提到 Karpathy 自己以前做的相关工作、llm.c、社区工具等作为辅助参考
00:01:00 预训练数据(pretraining data (internet))
在这一节中,Karpathy 会讨论如何从互联网构建初始语料库,为 LLM 提供训练基础:
-
数据来源
-
Common Crawl 等大规模网页抓取项目
-
各种公开网络数据(书籍、维基百科、论坛、新闻、文章等)
-
在社区里 "FineWeb" 是常被引用的清洗后语料(约 44TB 规模) Anup Jadhav+3Medium+3codingscape.com+3
-
-
数据过滤 / 预处理
-
URL 黑名单 / 域名过滤(剔除垃圾、广告、恶意、色情、营销网站等) dilopa.com+2codingscape.com+2
-
文本抽取:从 HTML 中剥离标签、脚本、样式,只保留纯文本内容 dilopa.com+2codingscape.com+2
-
语言识别 / 语言过滤:如仅保留某种语言(英文)页面 (例如要求 > 65% 属于英文) dilopa.com+2Medium+2
-
敏感信息 / 个人身份信息 (PII) 去除(地址、身份证号、用户名、邮箱等) dilopa.com+2codingscape.com+2
-
重复 / 近似重复检测与过滤(去除重复 or 高重叠内容) dilopa.com+2codingscape.com+2
-
质量打分 / 低质量文本剔除(如过短、乱码、无语义结构文本)
-
-
最终语料与规模
-
过滤后得到大规模、高质量的文本语料供模型训练
-
提及 FineWeb 语料(约 44 TB 文本)与约 15 万亿 token 量级的训练文本 Medium+2dilopa.com+2
-
多样性与覆盖:不同领域、风格、主题的文本,以提高模型广泛适用性
-
-
从文本到符号(为后续 tokenization 做铺垫)
-
文本必须被转为符号序列 (sequence of symbols) 才能输入神经网络
-
设计 symbol 集合("token vocabulary")与符号空间大小的权衡
-
这一节主要为后续 tokenization、模型输入输出打基础。
00:07:47 Tokenization(分词 / 子词表示)
在这一节,Karpathy 会讲如何把自然语言文本转换为模型可处理的 token 表示,以及常见策略、挑战、权衡:
-
动机 / 基本概念
-
神经网络不能直接处理字符或原始文本,需要把文本映射成离散符号 (token IDs)
-
token 的选择影响序列长度、表示能力与模型效率
-
-
从字节 / Unicode / 字符 到 token
-
文本首先以 UTF-8 或其他编码表示为字节
-
每个字节 (0--255) 可视为一个初步符号集合(256 种可能)
-
但这样的表示序列很长,不经济
-
-
子词 / Byte-Pair Encoding (BPE)、合并 token
-
合并频繁的字节 / 子字 /子串对,生成新的 token,减短序列长度
-
BPE 的原理:从最频繁的对开始合并
-
最终的 vocabulary 大小(token 数)是一个设计选择(例如达数万到十万级)
-
"高词汇量 + 较短 token 序列" 是通常的目标
-
-
vocab size 与序列长度的权衡
-
太小 vocab → 序列变长,推理成本高
-
太大 vocab → 参数稀疏、很多 token 很少出现,表示冗余
-
实际上,很多国家级 /业界 LLM 使用 ~100k 的词汇表规模 Medium+2GoPenAI+2
-
-
token 与 ID 映射
-
每个 token 对应唯一 ID
-
tokenization 过程:把文本分割成 token 序列 + 每个 token 映射到整数 ID
-
-
tokenization 工具 / 可视化
-
提到 "Tiktokenizer" 等可视化工具用于探索 tokenization 效果 Medium+2codingscape.com+2
-
演示如何一句话被拆成若干 token
-
-
tokenization 的局限 / 挑战
-
在处理少见词、拼写错误、罕见字符时的 token 分割困难
-
模型对细粒度操作(如精确拼写、字符层面变动)的能力较弱
-
这部分为理解模型如何"读写"文本做铺垫。
00:14:27 神经网络输入 / 输出(neural network I/O)
本节讲网络如何把 token 序列作为输入,并预测下一个 token 作为输出,是模型的基本输入输出机制:
-
上下文窗口 / context window
-
模型在每次输入中能看见一段固定长度的 token 序列(例如 LLM 的 context length)
-
这个窗口长度是模型设计的一部分
-
-
输入:token ID 嵌入 / embedding
-
token ID 通过 embedding 层映射为向量表示(高维稠密向量)
-
position embedding / positional encoding:用来表示 token 在序列中的位置
-
-
Transformer 架构简述
-
多层 Transformer block,每层包含注意力 (self-attention) + 前馈网络 (MLP)
-
每层之间有残差连接 (residual) + layer norm 等结构
-
-
输出层 / softmax 预测
-
模型对每个可能的 token 输出一个概率分布(softmax over vocab size)
-
输入 context → 预测下一个 token 的概率分布
-
-
损失函数 / 训练目标
-
使用交叉熵 (cross-entropy) 计算预测 token 与真实 token 的差异
-
最小化 loss 即训练目标
-
-
并行 / 批处理
-
通常使用 batch 训练,把多个片段同时输入,进行矩阵操作加速
-
矩阵乘法、Attention 的批处理优化
-
-
模型的"记忆 / 参数"
-
模型自身不保留状态(stateless),所有语义知识存储在参数中
-
每一次预测只依赖输入序列(和模型参数)
-
这一节目的是让你理解:模型如何接收 token 序列,并在训练/推理中如何输出预测。
00:20:11 神经网络内部结构(neural network internals)
在这一节,讲模型内部的机制、注意力、参数交互等,更深入理解"黑盒神经网络":
-
Transformer Block 构成
-
Self-attention(自注意力机制):如何计算 Query / Key / Value,注意力权重分配
-
多头注意力 (multi-head attention):多个注意力头并行,捕捉不同子空间信息
-
前馈网络 (MLP / feed-forward):每个 token 经两层或多层全连接层处理
-
残差连接 + 层标准化 (residual + layer norm):保持梯度流畅、稳定训练
-
-
注意力权重 / 注意图
-
注意力层如何在不同 token 之间建立"交互"
-
Q-K 内积 / Softmax 机制对注意分配的影响
-
-
参数规模 / 层数 /隐藏维度
-
模型设计中的超参数(层数、隐藏维度、头数等)如何影响容量与效率
-
参数规模越大,一定程度上模型能表示更多知识
-
-
并行 / 矩阵化计算
-
所有操作(attention、MLP)都能表示成矩阵乘法、张量操作
-
以 GPU / TPU 为基础的高效并行计算方式
-
-
梯度传播 / 反向传播
-
反向传播 (backpropagation) 如何在注意力 + MLP 中传播梯度
-
残差连接、LayerNorm 如何协助训练稳定性
-
-
瓶颈 /挑战
-
注意力计算复杂度:对于长序列,注意力是 O(n²) 的计算
-
内存、计算资源开销
-
参数过拟合 / 正则化 / dropout 等技术
-
通过这部分,你能理解内部机制是如何"把 token 变为知识 / 下一个 token 概率"的。
00:26:01 推理(inference)
本章节聚焦模型在运行时(即非训练阶段)的行为:如何用训练好的模型生成文本。
-
逐 token 生成 / 自回归 (autoregressive) 生成
-
模型一次预测下一个 token,然后将其加入输入序列,再继续预测下一个
-
每一步都是基于当前 context + 已生成 tokens
-
-
采样策略 / 解码算法
-
贪心 (greedy):每次选择最高概率 token
-
Beam Search:保留多个候选路径
-
随机采样 (top-k, nucleus / top-p):在高概率 token 内随机选取
-
温度 (temperature):控制概率分布的"平滑 / 峰化"
-
-
效率 /加速
-
缓存 (key, value 缓存) 用于避免重复计算注意力
-
并行 /批量推理优化
-
-
示例:GPT-2 推理流程
- 演示 GPT-2 如何在现实中用训练模型生成文本(输入 prompt → 连续生成)
-
不确定性 / 随机性
-
即便 prompt 一样,多次生成可能不同
-
输出不是 deterministic,而是基于概率分布随机抽样
-
-
限制 /挑战
-
上下文窗口限制:无法"看到"很早的 token
-
输出被截断 / 序列长度限制
-
模型"忘记"早期生成的 token 信息
-
这部分让你看到训练完之后模型如何"读 prompt → 生文本"。
00:31:09 GPT-2:训练与推理(GPT-2: training and inference)
本节用 GPT-2 作为案例,说明前面讲的概念在实际模型上的应用,以及一些经验 /教训:
-
GPT-2 架构与参数
-
GPT-2 的规模(参数量、层数、context length)
-
在当时语境下的设计选择
-
-
训练 GPT-2
-
用大规模文本语料训练,目标是下一个 token 预测
-
在训练中如何对 batch、梯度、优化器 (Adam 等) 进行设计
-
学习率调度、warm-up 等技巧
-
-
推理 / 应用 GPT-2
-
在给定 prompt 下生成文本
-
示例展示:从一句话让 GPT-2 接续写作
-
-
重现 / 轻量化实现
-
提到 "llm.c" 项目:一个较轻量的 GPT-2 重现版本
-
用少资源重现 GPT-2 的可能性、优化技巧
-
-
经验教训
-
在早期模型中容易见到生成重复、停滞 / 模型风格偏好问题
-
上下文长度限制导致模型"忘记"较早 prompt
-
模型对长文生成、连贯性和一致性的挑战
-
这一节帮助你把前面的理论映射到一个具体经典模型。
00:42:52 LLaMA 3.1 基模型推理(Llama 3.1 base model inference)
在这一节,Karpathy 会切换到现代更大的模型(如 LLaMA 3.1),展示其推理过程与优化:
-
LLaMA 3.1 架构 / 规格
-
模型规模、层数、上下文长度、参数量
-
与 GPT 系列的差异 /改进
-
-
基模型(base model)推理流程
-
输入 prompt → 生成 token 流程
-
缓存 key/value 加速注意力计算
-
并行 / chunking /分块处理
-
-
性能 /效率优化
-
针对 large model 的各种工程优化
-
梯度 checkpointing、低精度推理 (FP16 / quantization)
-
内存 /显存优化策略
-
-
比较 /演示
-
跟 GPT-2 相比的优势
-
在较长 prompt /复杂任务上的表现
-
-
现实挑战
-
在极长上下文长度或复杂查询下的记忆 /推理落后
-
缓存失效 /上下文窗口边界的问题
-
这部分让你看到现代大型模型在实践中的推理流程与挑战。
00:59:23 从预训练到后训练(pretraining to post-training)
在本节,Karpathy 开始从"基础模型训练"阶段,转向"让模型成为有用助手 / 应用模型"的 "后训练 / 调优"阶段。
-
基础模型 (Base / Pretrained model) 的局限
-
虽然模型在语言预测上强,但在对话 /实用任务上可能表现不佳
-
容易产生不合目的 /不合语境的回答
-
缺乏指令遵从性 / 实用性 /一致性控制
-
-
后训练 (post-training / fine-tuning) 的目标
-
让模型在对话任务上表现更贴合人类期望
-
引入对话语料、指令、评价信号等
-
-
两个主要阶段
-
监督微调 (Supervised Fine-Tuning, SFT /指令微调)
-
强化学习阶段 / RLHF(将在后面章节详细讨论)
-
-
从大规模通用模型到对话助手的转变
-
如何让模型"听指令 / 有人格 /能应答用户"
-
使用对话模板 (prompt templates / chat templates / ChatML 等) 引入结构化对话格式
-
在这一节,他把"模型是怎样学语言"这一阶段,与"怎样让模型成为助手 /工具"这个应用阶段连接起来。
01:01:06 后训练数据(post-training data (conversations))
这里会详细讨论用于微调 /对话训练的数据来源、构造方式、质量控制等。
-
对话 /问答语料
-
人工标注的对话 / 问答对 (prompt → ideal response)
-
多轮对话样本
-
-
数据构造 /质量
-
从真实对话 /客服日志 /问答平台抽取(经清洗 /匿名化)
-
人工作者 (labelers) 编写高质量 prompt-response 对
-
数据清洗 /规范格式 /对齐 /去噪
-
-
指令格式 / 模板 (chat templates, prompt templates, ChatML)
-
统一 prompt-response 格式,使模型易于理解指令结构
-
聊天模板 (system / user / assistant roles) → 提示模型角色身份 /上下文
-
ChatML 是一种对话格式协议 /标记方式
-
-
微调 (Fine-Tuning) 过程
-
用监督方式 (最小化响应与目标的 cross-entropy) 来训练模型在对话任务上产生合适回答
-
通常是用较小数据集做微调(相比预训练语料)
-
调整学习率、正则化、防止灾难性遗忘 (catastrophic forgetting)
-
-
从 Base → 指令模型
-
微调后得到一个"instruction-following 模型",更适合交互式场景
-
对用户 prompt 的响应更具可控性、连贯性
-
这一节展示"让语言模型成为对话型/指令型模型"的数据机制。
01:20:32 幻觉 (hallucinations)、工具使用、知识 / 工作记忆(hallucinations, tool use, knowledge/working memory)
这是一个非常关键的章节,讲 LLM 的错误类型、能力扩展机制、记忆机制等。
-
幻觉 (hallucinations)
-
模型生成自信但错误 /虚假的信息
-
原因:模型基于统计模式推测,而不是"真实知识验证"
-
在不可验证 /稀疏知识区域容易出错
-
-
工具使用 (tool use / external tools)
-
用外部机制来辅助模型减少错误 / 获取事实
-
常见工具:Web 检索 / 搜索引擎、数据库、代码执行器 (Python REPL)、知识库 API
-
Prompt + 检索 + 验证策略(让模型先检索事实,再回答)
-
"链上工具调用":模型决定何时调用工具、如何组合工具
-
-
知识 vs 工作记忆 (knowledge / working memory)
-
知识:模型已经"存储"在参数里的事实 /统计模式
-
工作记忆:上下文窗口 / prompt 中即时记住的信息
-
上下文限制:模型只能"看到 /记住"有限窗口内 tokens
-
当任务跨越长历史 /多个交互时,模型可能"忘记早期信息"
-
-
错误类型 /失效情境
-
在复杂逻辑推理、数学、时序记忆、跨段依赖上容易犯错
-
模型在"置信 /不确定"判断上能力欠缺
-
-
缓解策略 / 实践技巧
-
在 prompt 里引导模型说 "我不确定 /查证"
-
要求模型 "一步步思考 / chain-of-thought"
-
在输出中包含检验 /推理步骤
-
使用工具 /插件验证 /查错
-
训练时加入拒答 / uncertainty 抑制任务
-
-
评价 /反馈机制
-
检测 /识别 hallucination 实例
-
让模型自己产生 "不确定 /拒答" 的能力
-
这节对于理解 LLM 在实际应用场景中出错的原因与解决方向非常关键。
01:41:46 自我知识 (knowledge of self)
在这一部分,Karpathy 探讨模型 "关于自己 /模型身份 /模型能力" 的回应机制,以及它为何并不能"真正理解自己"。
-
模型谈自己 /自我描述
-
当用户问 "你是谁 / 你是做什么的 / 你能做什么" 时,模型会给出一段"自我介绍"
-
这些回答不是模型有真实自我意识,而是基于训练数据中对话样本中"自我描述"统计模式
-
-
局限 /误解
-
模型并不"知道"自己在做什么,是一种"语言模拟"
-
它不能真正理解"意识"、"意图"、"情感"
-
所以其自我描述是高度格式化 / 模板化的输出
-
-
陷阱 /迷惑
-
如果 prompt 让模型"假设自己是某物 /某种角色",模型会根据语料库学到的模式进行演绎
-
不要将其输出误读为"真正理解 /内在状态"
-
-
提示设计 /操控
-
通过约定角色 /前置指令 (system prompt) 引导模型 "以某种身份说话"
-
这些角色设定是人为注入的,不是模型固有能力
-
这节让你在对话时更警觉:模型 "说自己" 的答案不是内部自我意识,而是语言统计模拟。
01:46:56 模型需要 token 来"思考"(models need tokens to think)
这一节强调:模型"思考 /推理" 并非在单个 token 内完成,而是分布在整个 token 生成过程中。
-
推理 /思考是 token-by-token 过程
-
模型不能在 "内部"做复杂计算再只输出一个 token
-
它是一步步地产生中间 token,整个序列就是"思考路径"
-
-
复杂任务必须拆解成多个 token 步骤
-
比如数学推理、逻辑推理、逐步演算等需要模型输出中间步骤
-
"一步到位"的答案要求会给模型很高压力,容易出错
-
-
每个 token 的计算预算有限
-
模型在生成每个 token 时只有固定的 "计算/注意力预算"
-
如果把太多复杂逻辑压缩在一个 token 上,容易失败
-
-
因此,在 prompt 引导中常用"逐步 / chain-of-thought"策略
-
要求模型"写出推理步骤 / 思路"
-
通过让它输出多个中间 token 来分阶段推理
-
-
token 输出即思考路径
- 模型"在写"的过程就是在"思考 /建模"过程
理解这点可以帮助你设计 prompt,让模型更可靠地产生推理过程,而不仅仅 "直接给答案"。
02:01:11 再论 tokenization(tokenization revisited: models struggle with spelling)
在这一节,Karpathy 回过头来再次探讨 tokenization 的一些边界 / 弱点,尤其是在拼写 /字符操作任务上的挑战。
-
拼写 /字符级操作困难
-
模型在处理 "准确拼写 / 字符级修改 /计数 /编辑距离" 类型任务时,常出错
-
比如让模型修改一个单词的字母、字符级替换 /插入 /删除,效果不稳定
-
-
tokenization 粒度不适合某些任务
-
由于 token 是子词 /子串级别的,不能精细到每个字符
-
对于"把 'apple' 改为 'apples'"这种微小改动,有时会引入误差
-
-
模型"理解 /操作"拼写 /字符不是强项
-
在拼写校正、字母替换、字符重排时容易犯错
-
在 prompt 里要求模型"逐字符操作 /用代码"可能更可靠
-
-
缓解方法
-
在那些精细任务中,建议让模型调用代码 /脚本 /正则表达式
-
或者把任务包装成字符级 / token-level 任务,并明确提示
-
这一节让你意识到:tokenization 虽然是基础,但也带来一些固有局限,不能把模型当作"字符级编辑工具"看。
02:04:53 鋸齿式智能 ("jagged intelligence")
这是一节稍微抽象的章节名称,探讨 LLM 在能力表现上的不稳定 /断层。
-
"jagged intelligence" 的含义
-
模型在一些任务上可表现极好(如写作、文案、常识问答),但在另一些看似简单的任务上却严重失常
-
能力表现不是平滑渐进,而是"断层 / 起伏 /不连续"
-
-
典型失误 /反常例子
-
简单算术错误、基础逻辑错误
-
在小规模 prompt /少量上下文时出现意外错误
-
模型有时在一个 prompt 很好回答,但稍微变动就崩溃
-
-
为什么会有这种不稳定
-
训练数据分布、tokenization、model capacity 与泛化之间的不匹配
-
模型在那些训练频繁 / 知识丰富区域表现好,在稀疏 /边缘案例表现弱
-
-
应对 /缓解策略
-
对"关键小任务"不要指望模型总是正确
-
在对话 /重要场景加检验 / fallback 机制
-
设计 prompt 时考虑模型可能的"断崖点 /极端边界"
-
这一节让你对模型能力表现的"跳跃性 /不稳定性"有心理预期。
02:07:28 从监督微调 (SFT) 到 强化学习(supervised finetuning to reinforcement learning)
在这一节中,Karpathy 讲解如何从传统的"监督微调"过渡到用强化学习的方法来改进模型。
-
监督微调 (Supervised Fine-Tuning, SFT / 指令微调)
-
用标注好的 prompt-response 对训练模型,让其模仿"理想回答"
-
适用于标准对话 /常见任务
-
是基础调优方法
-
-
SFT 的局限 /瓶颈
-
模型可能过拟合训练风格
-
难以在不可验证 /复杂任务中表现好
-
无法处理模型内部的策略 /选择能力
-
-
引入强化学习 (RL)
-
用奖励机制让模型尝试多个候选回答 /策略
-
通过 trial-and-error 来强化好回答、淘汰差回答
-
强化学习可以探索未知策略,不仅仅模仿
-
-
SFT → RL 的连接 /混合
-
通常先做 SFT,再在其基础上做 RL
-
SFT 提供一个稳定起点 /初始行为模型
-
RL 进一步优化 /调整
-
-
策略 /奖励设计
-
如何给出 reward signal(人类评分模型 /自动化奖励模型)
-
控制模型不"作弊 /投机取巧"
-
-
风险 /挑战
-
"奖励模型偏差 /误导"风险(模型找到投机路径)
-
RL 训练不稳定 /开销大
-
模型可能破坏原有语言质量 /一致性
-
这节为后续 RLHF 概念做铺垫。
02:14:42 强化学习(reinforcement learning)
在这部分,Karpathy 更深入讲强化学习在优化 LLM 上的作用、机制与挑战。
-
基本 RL 概念回顾
-
Agent、环境、状态、动作、奖励 (reward)
-
模型作为 agent,在生成序列时选择 token /策略
-
-
在 LLM 上应用 RL 的方式
-
给出 prompt,模型生成多个 candidate response
-
用奖励函数对这些回答打分
-
模型根据 reward 信号更新策略(参数)
-
-
策略优化方法
-
常用 RL 算法 /变体:PPO (Proximal Policy Optimization)、Policy Gradient 等
-
如何安全地训练模型(防止 "大跳 /崩坏")
-
-
探索 vs 利用的平衡
-
模型需要尝试新的回答 (exploration) vs 利用已知好的回答 (exploitation)
-
奖励策略设计需鼓励合理探索,但不至于发散
-
-
风险 /不良策略 /对抗性行为
-
模型可能找"漏洞 /捷径"以获取高奖励但输出质量差
-
必要的约束 /惩罚机制
-
-
示例 /案例讨论
-
如何在问答 /对话任务中使用 RL
-
可能展示强化学习在模型行为调整上的实例
-
-
计算 /资源成本
-
RL 阶段通常非常昂贵、运算密集
-
需要大量采样、评估、策略更新
-
这一节用于展示 RL 在 LLM 优化中的作用与实现方式。
02:27:47 DeepSeek-R1
在这一章节,Karpathy 可能引入一个具体的 RL 强化模型 /实例 --- DeepSeek-R1,作为前沿示例说明 RL 在 LLM 中的应用成果。
-
DeepSeek-R1 模型 /系统介绍
-
它如何在 LLM 中应用 RL
-
它的主要目标 /设计动机
-
-
性能 /能力提升点
-
在复杂问题 /多步推理 /链式思考 /数学 / 编码任务上的表现提升
-
生成更合理 /连贯 /准确的回答
-
-
技术细节 /创新点
-
在奖励设计、探索策略、推理路径等方面的改进
-
可能的新训练技巧 /架构调整
-
-
示例 /对比
-
同样 prompt 在基础模型 /SFT 模型 /DeepSeek-R1 上的区别
-
在多个任务上的 empirical 结果展示
-
-
局限 /挑战 /未来改进空间
DeepSeek-R1 是近期在社区 /研究中被提及的例子,用以展示 RL 在 LLM 中的潜在巨大价值。
02:42:07 AlphaGo
在这里,Karpathy 用 AlphaGo 作为类比 /参照,来说明 RL 的威力、策略发现与模型自我改进的机制。
-
AlphaGo 的基本背景
-
DeepMind 的围棋 AI,通过 RL(自对弈)得到非人类策略
-
它如何从人类棋谱 + 自己比赛中学习
-
-
类比 LLM RL 的意义
-
LLM 的强化学习也可能产生"超出人类直觉 /创新"策略
-
模型可能在语言 /推理策略上"发现"新的路径
-
-
"Move 37" 案例
-
AlphaGo 在比赛中走出的"不按常理出牌"创新步(第 37 步)
-
对比 LLM 在推理 /语言策略上可能产生的新颖路径
-
-
启示 /象征意义
-
RL 能带来"万万没想到"的策略 /思路
-
在 LLM 中,可能让模型产生不在训练数据中的"新技巧"
-
-
限制 /不同点
-
围棋环境是明确的、奖励明确、可模拟自对弈
-
语言 /对话环境更开放、难以定义 reward、训练更加不稳定
-
通过这个类比,他希望让我们意识到 RL 在 LLM 中的潜在"突破性"可能。
02:48:26 人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF)
本节通常是 LLM 用于对话 /助手模型中最关键的部分:如何用人类反馈 + 强化学习来调优模型行为。
-
RLHF 的基本流程
-
对 prompt,模型生成多个候选回答
-
人类评审 (labelers) 对这些回答排序 /评分
-
训练一个奖励模型 (reward model) 来拟合人类偏好
-
使用 RL(如 PPO)使主模型优化以获得高奖励
-
-
角色与模块
-
主模型 (policy model):生成回答
-
奖励模型 (reward model):评估回答质量
-
人类评审 / 标注者 (labelers):提供偏好 /排序数据
-
-
训练细节 /挑战
-
拒答 /安全 /拒绝机制:使模型在不确定时拒答
-
防止模型"走捷径 /投机":输出看似高 reward 但无意义回答
-
控制训练稳定性 /避免崩坏
-
奖励模型偏差 / distribution shift 问题
-
-
RLHF 的作用 /优势
-
提高模型的对话质量、礼貌性、一致性
-
让模型更符合人类偏好 /更安全 /更可靠
-
在不可验证 /开放领域提供"质量控制"机制
-
-
风险 /局限性
-
奖励模型误导 /偏差可能导致模型偏斜
-
人类评审成本高
-
模型可能被优化得"太安全 /保守"
-
RLHF 本质上是近似方法,不保证完全可靠
-
-
实例 /演示
-
在视频 /笔记中可能演示 prompt → 候选输出 → 人类评分 → 模型再训练的过程
-
对比没有 RLHF 和有 RLHF 模型的回答差异
-
这节是你理解现代对话型 LLM 的 "从基础模型到安全助手" 转变的核心。
03:09:39 展望未来 (preview of things to come)
在这一节,Karpathy 会对未来 LLM /AI 发展方向做展望与预测。
-
多模态能力 (Multimodal models)
-
文本 + 图像 + 音频 + 视频 的统一模型
-
模型能够同时理解 /生成不同模态内容
-
-
更长上下文 /长期记忆
-
扩展上下文窗口 (128k, 1M tokens 级别)
-
引入持久记忆 /外部长期记忆模块
-
-
实时学习 /在线更新
-
模型在部署后继续学习 /适应用户
-
"记忆 /个性化"机制
-
-
更好的工具整合 /Agent 框架
-
模型内部自动选择 /组合工具
-
多工具 /插件 /检索 /行动能力的集成模型
-
-
结构化思维 /程序 /推理能力增强
-
更稳健的 chain-of-thought、算术 / 逻辑能力
-
模型自己调试 /验证 /反省能力
-
-
更安全 /可控 /可解释的模型
-
对齐 (alignment)、安全机制、可解释性 /透明性
-
用户可控性 /模型自审 /拒答机制
-
-
模型竞争 /开放 /生态
-
更多开源 /社区模型
-
模型性能榜单、API / 推理基础设施竞争
-
-
未来挑战
-
模型规模与资源成本瓶颈
-
数据隐私 /法规 /伦理挑战
-
模型偏见 /错误 /滥用风险
-
这一节让你了解 LLM 发展的方向与限制,帮助你在未来跟进趋势。
03:15:15 跟踪 LLM 的方式(keeping track of LLMs)
这一节谈如何在快速发展的领域里保持信息 /模型更新能力:
-
模型 /性能排行榜 /Leaderboards
-
如 LM Arena、El Marina 等评测 /排行榜平台
-
用于比较不同模型在标准 benchmark 上的能力
-
-
社区 /新闻 /快报 /订阅
-
关注 AI /LLM 相关的博客、Newsletter(如 AI News)
-
跟踪研究论文发布 /开源项目更新
-
-
API / 推理平台 /公开模型目录
-
使用 Hugging Face、TogetherAI、LMStudio、OpenAI 等平台查看 /调用最新模型
-
开源模型权重 /模型仓库(如 LLaMA、DeepSeek 等)
-
-
版本 /模型更新日志 /比较报告
-
跟踪模型版本迭代(如 LLaMA 3、4 等)
-
阅读官方 /学术报告 /论文中的基准对比
-
-
自己动手试 /比较 /benchmark
-
用自己任务 / prompt 在不同模型上测试
-
建立自己的 benchmark /实验以观察差异
-
通过这一节,他希望听众能持续在这个快速变化的领域里保持敏感 /主动。
03:18:34 在哪里可以找到 LLM(where to find LLMs)
这一节更偏实操 /资源 orientated,介绍可以访问 /使用 LLM 的途径。
-
商业 /闭源模型平台
-
OpenAI (ChatGPT / API)
-
各大云厂商 /AI 服务提供商
-
-
开源 /开权重模型
-
LLaMA、DeepSeek、其他开源社区模型
-
模型权重 +推理框架 (llama.cpp、onnx runtime、quantization 框架等)
-
-
推理 /部署基础设施
-
本地运行 (GPU / CPU /边缘设备)
-
云端 API / inference 服务
-
轻量化 /量化 /加速推理方案
-
-
模型市场 /模型仓库
-
Hugging Face 模型库
-
模型托管 /版本管理平台
-
开发者社区共享模型 /评测
-
-
使用 /调用 /集成方式
-
用 REST /HTTP API 调用模型
-
接入 SDK /库 /工具
-
在产品 /应用中集成模型
-
-
注意许可证 /使用限制
-
权重许可、商用限制、数据使用约束
-
模型偏见 /安全 /合规性问题
-
这一节帮你知道"要怎么去拿到 /用 /试 /比较 LLM"。
03:21:46 总结(grand summary)
最后,Karpathy 会做一个总结,把整条线 ------ 从数据、tokenization、模型架构、训练、推理、微调、RLHF、未来趋势 ------ 串联起来,强调关键理念与提醒点。
-
整条训练 /使用 /优化管线回顾
-
从预训练 → 后训练 → RLHF 的流程
-
每个阶段的目标、挑战与方法
-
-
能力、局限与风险并存
-
LLM 的强大能力(自然语言、生成人类样式输出)
-
但在逻辑、数学、事实精确性、长期一致性等方面仍有显著局限
-
模型会犯错 ("hallucinations"),必须加监控 / 验证
-
-
思维 /prompt 设计对系统行为的巨大影响
-
如何通过设计 prompt /结构、chain-of-thought 提升效果
-
模型行为严重依赖训练 /反馈设计
-
-
RLHF /对齐 /安全机制的重要性
-
把模型从"统计预测机器"转为"可靠助手"必须借助 RLHF 等机制
-
请求拒答 /安全机制 /奖励模型设计是关键
-
-
未来方向 /建议
-
多模态、长期记忆、在线学习、工具整合等趋势
-
社区 /开源 /资源共享的角色
-
作为用户 /开发者,保持谨慎 /验证 /责任心
-
-
鼓励继续深入 /实验 /批判性思维
-
视频主要给你"心智模型 /直觉理解",你还需要动手实验、阅读代码 /模型以加深理解
-
提醒:不要把 LLM 视为完美实体,要保持批判 /验证 /监督
-
【1080P】安德烈·卡帕西:深入探索像ChatGPT这样的大语言模型|Andrej Karpathy_哔哩哔哩_bilibili