minGPT学习路径

① 第一优先:train.py(必须先看)

为什么先看它

这是整个项目的"主流程控制器",决定你前面看的模型怎么被用起来。

你要重点抓三件事:

  • 数据是怎么进来的(dataset / dataloader)
  • model forward 怎么被调用
  • loss / optimizer / training loop

你要建立的理解

"一个 GPT 是怎么被训练起来的完整闭环"

你会第一次把:

  • Transformer结构
  • loss计算
  • 训练循环

串成一个系统。


② 第二优先:model.py(GPT核心)

如果 README 只是"介绍结构",那 model.py真实实现结构

重点看:

1. GPT class

  • forward pass
  • block stack

2. Block

  • attention + mlp

3. Attention(最关键)

  • QKV projection
  • mask(causal attention)
  • softmax

你要搞清楚:

token 是怎么一步步变成 logits 的


③ 第三优先:attention.py(如果单独拆出来)

如果仓库里 attention 是单独模块:

你要重点看:

  • scaled dot-product attention
  • causal mask
  • multi-head split & concat

这一块是你理解 LLM 的"分水岭"。


④ 第四优先:dataset / data loader

重点是:

  • tokenization(字符级 or BPE)
  • block sampling(seq_len怎么切)
  • batch shape(B,T,C)

你要解决的问题是:

"模型看到的数据长什么样"


⑤ 第五优先:config / hyperparameters

重点:

  • n_layer
  • n_head
  • n_embd
  • block_size

你要开始建立一个直觉:

"这些参数如何影响模型能力与成本"


推荐你的学习路径(非常重要)

你现在不要"顺着文件看",而要按这个认知链:

复制代码
数据长什么样 → train.py怎么喂 → model.py怎么处理 → attention怎么计算 → loss怎么回传

给你一个关键判断(很多人卡在这里)

如果你现在只是"读代码",会很慢。

正确方式是:

👉 每看一个文件,都回答一个问题

文件 你要回答的问题
train.py 模型怎么被训练起来
model.py token怎么变logits
attention token之间怎么交互
dataset token从哪来
config 为什么这样设
相关推荐
财经资讯数据_灵砚智能2 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月9日
人工智能·python·ai·信息可视化·自然语言处理·ai编程·灵砚智能
钱多多_qdd2 小时前
claude code(九):【Claude Code官方最佳实践7️⃣】:通过多 Claude 工作流程提升水平
ai·claude
要开心吖ZSH2 小时前
AI医疗分诊与健康咨询助手agent开发——(2)让AI输出可控:结构化分诊与安全规则
java·ai·agent·健康医疗·spring ai
俊哥V2 小时前
AI一周事件 · 2026-06-03 至 2026-06-09
人工智能·ai
金融RPA机器人丨实在智能2 小时前
橡胶原料供应链转型:海外AI Agent适配国产进销存系统改造费用解析与实在Agent降本方案
人工智能·ai
共创splendid--与您携手3 小时前
AI读取前端项目生成skill.md
前端·人工智能·ai
猿小猴子5 小时前
主流 AI IDE 之一的「DeepSeek-Reasonix 」介绍
人工智能·ai·deepseek·reasonix
装不满的克莱因瓶5 小时前
链式法则如何传递参数误差 —— 深入理解神经网络中的梯度传播
人工智能·python·深度学习·神经网络·数学·机器学习·ai
Anastasiozzzz5 小时前
从有限状态机到智能体图:传统 FSM 与 Agent Graph的演进
java·人工智能·python·ai