从零复现Llama3代码库爆火，大神Kapathy一键三连，GitHub狂揽2k+

每次操作一个向量和矩阵乘法
西风发自凹非寺

量子位 | 公众号 QbitAI

让大神 Andrej Karpathy 一键三连❤️（点赞 + 转发 + 评论），一个教你从头开始实现 Llama3 的代码库爆火。

X 上转赞收藏量超 6.8k，GitHub 揽星 2k+。

火就火在，它教你从头用 Meta 开源的权重进行推理，详细解释和展开了注意力机制中多个头的矩阵乘法、位置编码以及所有中间层。

换句话说，他解释了每行代码都在干啥。

Karpathy 看后直呼打造者 Nishant Aklecha（后文暂称 "纳哥"）是个有品的人：

完全展开后，比起模块相互嵌套和调用时，更容易理解每一步具体在做什么。

网友们对其也是赞不绝口，纷纷致敬：

话不多说，一起来看纳哥是如何手把手教的。

（量子位在不改变原意的基础上，进行了编译整理）

在运行纳哥提供的文件前，大伙儿需要预先下载 Meta 官方提供的 Llama3 模型权重。

纳哥表示自己没搞分词器，推荐用 Karpathy 的现成简洁版 BPE 代码。

PS：

"字节级（byte-level）"BPE 算法，在 UTF-8 编码的字符串上运行，广泛应用于大模型分词。Karpathy 提供的这个代码库包含两个分词器，都能在给定文本上训练分词器的词汇表和合并规则、将文本编码为 token、将 token 解码为文本。

读取模型文件的方式通常取决于 model classes 的编写方式以及 class 中变量的命名。但由于纳哥是从头开始实现 Llama3，所以将逐个张量地读取文件内容。

通过此配置可以推断出模型的结构和参数信息，例如模型包含的 Transformer 层数、多头注意力块中的头数，以及词汇表的大小等细节。

将文本转换为 token 时，纳哥使用 tiktoken 作为分词器。

接下来，纳哥展示了在代码中将 token 转换为高维的嵌入表示。这是代码库中唯一使用内置神经网络模块的部分。