【CS336导言】nanoGPT

Andrej Karpathy 的 nanoGPT,本质上是:

一个"极简版 GPT 训练框架"。

项目目标非常直接:

text 复制代码
用最少代码,教会你 GPT 到底怎么训练。

官方 GitHub:

nanoGPT Github


为什么 nanoGPT 很出名

因为以前很多 GPT 教程都有问题:

  • 太理论
  • 太抽象
  • 工业框架太复杂
  • 一堆 HuggingFace 黑盒

而 nanoGPT:

  • 只有几百行核心代码
  • 真能训练
  • 真能跑
  • 真能生成文本
  • 接近真实 GPT 架构

所以很多人说:

"这是理解 LLM 最好的入门工程。"


nanoGPT 核心特点

1. 极简

整个 GPT 核心:

基本就结束了。

不像工业代码:

text 复制代码
configs/
trainer/
pipeline/
distributed/
kernel/

一堆东西。


2. 真正训练 GPT

不是玩具。

它可以:

  • 训练 Shakespeare
  • 训练中文语料
  • 训练小型代码模型
  • 多 GPU
  • bf16
  • compile
  • DDP

甚至能训练到:

text 复制代码
几十亿 token

3. 非常接近现代 LLM

它包含:

  • causal attention
  • layernorm
  • residual
  • GELU
  • AdamW
  • weight tying
  • cosine lr schedule

也就是:

现代 GPT 的核心骨架。


nanoGPT 的整体结构

核心就几个文件:

文件 作用
model.py GPT 模型
train.py 训练
sample.py 推理生成
config/ 超参数

GPT 核心代码

最经典的是 attention:

python 复制代码
att = (q @ k.transpose(-2, -1)) * (1.0 / math.sqrt(k.size(-1)))
att = att.masked_fill(self.bias[:,:,:T,:T] == 0, float('-inf'))
att = F.softmax(att, dim=-1)

y = att @ v

这里其实就是:

\mathrm{Attention}(Q,K,V)=\mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

这几行代码就是 GPT 灵魂。


它训练什么

Karpathy 最经典 demo:

Tiny Shakespeare

数据集只有几 MB。

比如:

text 复制代码
To be, or not to be...

训练后:

text 复制代码
KING:
What say you, my lord?

模型已经会生成莎士比亚风格文本。


为什么这很重要

因为你会第一次真正理解:

GPT 不是"会思考"

而是:

"不断预测下一个 token"

比如:

text 复制代码
I love

模型预测:

text 复制代码
AI
you
coding

本质是概率。

损失函数:

L=-\sum_i y_i\log p_i

也就是 Cross Entropy。


nanoGPT 的学习价值

它最大的价值不是:

"训练一个厉害模型"。

而是:

看懂 GPT 每一层到底干了什么。

很多人:

  • 会调 API
  • 会 LangChain
  • 会 Agent

但:

text 复制代码
不知道 attention 到底怎么算

nanoGPT 会把这个黑盒拆开。


nanoGPT 会让你理解什么


1. 为什么上下文长度贵

因为 attention:

text 复制代码
O(n²)

上下文翻倍:

text 复制代码
显存 ≈ 4倍

2. 为什么训练那么烧钱

因为:

text 复制代码
token × parameter × FLOPs

是天文级。


3. 为什么推理快不了

因为 autoregressive:

text 复制代码
一个 token 一个 token 生成

不能完全并行。


4. 为什么 KV Cache 重要

否则每次都重新算 attention。


nanoGPT 和 CS336 的关系

其实:

CS336 很大程度上就是"nanoGPT 工业加强版"。

nanoGPT:

text 复制代码
教学版 GPT

CS336:

text 复制代码
OpenAI infra 模拟器

nanoGPT 适合谁

特别适合:

  • 想转 LLM infra
  • 想懂 Transformer
  • 想做 AI 投研
  • 想做本地模型
  • 想进大模型公司

最推荐的学习方式

顺序建议:

第一阶段

先看:

Andrej Karpathy 的:

  • "Let's build GPT"
  • "Neural Networks: Zero to Hero"

YouTube 非常经典。


第二阶段

跑 nanoGPT:

bash 复制代码
python train.py config/train_shakespeare_char.py

第三阶段

自己改:

  • 中文 tokenizer
  • RoPE
  • FlashAttention
  • MoE

这时候成长最快。


nanoGPT 最大的意义

它把:

text 复制代码
"AI 是魔法"

变成:

text 复制代码
"AI 是矩阵乘法"

这是很多工程师真正入门 LLM 的转折点。

相关推荐
冬奇Lab11 小时前
Workflow 系列(03):状态管理——持久化、幂等性与版本绑定
人工智能·工作流引擎
冬奇Lab11 小时前
每日一个开源项目(第146篇):openpilot - 开源自动驾驶辅助系统,曾在 Consumer Reports 评测中超过特斯拉 Autopilot
人工智能·开源·自动驾驶
吴佳浩12 小时前
AI 工程师知识地图:模型格式、框架、部署工具一次讲明白
人工智能·aigc·ai编程
IT_陈寒13 小时前
Java的Date类又坑了我一次,改用时间戳真香
前端·人工智能·后端
码农胖大海13 小时前
AI额度不够用的解决方案
人工智能
后端小肥肠13 小时前
小红书虚拟商品怎么做?我先用 Skill 跑通了壁纸品类
人工智能·aigc·agent
feiyu_gao13 小时前
从零搭建个人 AI 工作台:一个管理者的 3 个月实验
人工智能·aigc·团队管理
程序员cxuan14 小时前
一句话,让你用上 GPT-5.6
人工智能·后端·程序员
机器之心14 小时前
AI圈刚开始谈Loop Engineering,两位95后博士已经盯上了人类闭环数据
人工智能·openai