本文是对 Andrej Karpathy 在油管上发布的 Deep Dive into LLMs like ChatGPT 视频的学习笔记,原视频主要讲解了一个类似 ChatGPT 这样的 LLM 的实现路径 。
前训练阶段
预训练
获取大量高质量并且多样化的
互联网文本数据
。
网络爬虫从互联网获取原始数据,并进加工
- 滤掉
涉黄
或者暴力
的网站地址 - 提取
HTML 标签中的文本内容
- 筛选出
特定语言
- 需要过滤掉各种
个人隐私信息
等。

Token化
将人类语言数据集转化成 token 供神经网络输入
神经网络训练
让
LLM
学习 token 在序列中彼此跟随的统计关系,预测给定上下文后,下一个最有可能出现的 token
神经网络初始参数是随机的,预测也是随机的。 希望正确的token的概率更高, 可以通过计算损失函数来实现,并通过反向传播算法
(backpropagation)来调整神经网络的参数。
-
输入:模型从数据集中
随机抽取固定长度的 token 窗口
(例如 8000 个 token) -
输出: 预测下一个 token 的概率分布,词汇表中每个 token 都有一个概率值。
Transformer 架构
希望正确的token的概率更高, 可以通过计算损失函数来实现,并通过反向传播算法(backpropagation)来调整神经网络的参数。
编码器
注意力机制
- 模型处理某个词,会关注输入序列中所有的词
前馈神经网络
- 对
自注意力
模块进一步处理
解码器
-
接受
编码器
的输出与已经生成文本
的输出 -
自注意力机制
关注前面的词
后训练阶段
监督微调


幻觉现象
AI 不会说不知道(概率模型)
多次比较输出
前往搜索 ,将内容加入全局上下文中
强化学习阶段
"DeepSeek"模型大量采用强化学习(RL),模型可以学习到"思维链"的认知模式
- 语言模型可能会给出
不同的解题方法
,最终答案可能正确,实际复杂情形下,模型可能会给出错误的答案,强化导向正确结果的解决方案模式
,这就是强化学习。
