Karpathy「疯狂之作」：100 美元、4 小时，就能训练你自己的「小型 GPT」

AI 传奇人物、前特斯拉 AI 总监 Karpathy 宣布发布全新项目 「nanochat!」

一个极简但完整的「从零构建 ChatGPT」训练框架。

Karpathy 说这是他写过的最疯狂的项目之一！

相当于每个人都可以自己拥有一个专属的 ChatGPT。

项目刚放出还不到 12 个小时，GitHub 星标就破 4.2kStar！（还在持续疯涨中）

全是社区自来水流量，这就是 Karpathy 在 AI 领域的号召力！

与早期的 nanoGPT 不同，nanochat 不仅涵盖预训练，还囊括了从数据准备、预训练、中期训练（对话、多项选择题、工具使用）、SFT、RL 微调到推理部署的全流程。

整个系统仅约 8000 行干净代码，启动一台 GPU 机器、运行一条脚本，4 小时后你就能在网页界面与自己训练的「小 ChatGPT」对话。

Karpathy 将其称为 LLM101n 的「压轴之作」，同时也可能成为未来研究基线和开源社区的实验平台。

让我来仔细看看如何仅仅用 8000 行来「克隆」ChatGPT：

使用全新的 Rust 实现训练分词器
在 FineWeb 上对 TransformerLLM 进行预训练，评估多个指标下的 CORE 分数
在来自 SmolTalk 的用户 - 助手对话、多项选择题、工具使用数据上进行中期训练
进行 SFT，在世界知识多项选择题（ARC-E/C、MMLU）、数学（GSM8K）、代码（HumanEval）上评估聊天模型
使用「GRPO」在 GSM8K 上对模型进行强化学习微调（RL）
在带有 KV 缓存的引擎中实现高效推理，简单的预填充 / 解码，工具使用（在轻量级沙箱中的 Python 解释器），通过 CLI 或类 ChatGPT 的网页界面与其交互。
撰写一份单一的 Markdown 成绩单，总结并将整个过程游戏化。

项目全程花费低至约 100 美元（约在一台 8XH100 节点上训练 4 小时）。

可以训练、克隆一个可以对话的小型 ChatGPT，它能创作故事 / 诗歌、回答简单问题。

只需要训练约 12 小时即可超过 GPT-2 的核心指标。

随着进一步扩展到约 1000 美元（约 41.6 小时训练），模型会迅速变得更连贯，能解决简单的数学 / 代码问题并做多项选择题。

训练 24 小时的模型（其 FLOPs 大致相当于 GPT-3Small125M，约为 GPT-3 的 1/1000）在 MMLU 上能进入 40 分段，在 ARC-Easy 上进入 70 分段，在 GSM8K 上进入 20 分段等。

总结一下就是：