transformer总结超详细代码篇

歌_顿2023-09-19 17:44

transformer 初版链接

attention 代码链接

attention 初版链接

引言：

本文为 transformer 代码篇，主要包含具体实现过程以及过程中遇到的具体细节问题以及实现问题，仅供参考，相关原理介绍可以参考上面链接。
代码部分是本人解读别人实现的代码，对一些作者认为不用注释但是新手又看不懂的个人理解，但是由于工程量确实很大也很复杂我只是想学习一下具体实现过程应付面试所以部分模块的优化代码以及最后的训练部分依然没有完全解析，以后对原理的进一步加深后再来完善
参考代码中参数的名称一开始我是按照自己的理解改变来了名称后来才发现是论文中就这么定义名字的，所以注意我的解析代码中参数名字可能有些混乱，主要是 src 用 input 代替，tgr 用 target 代替，d_model用 embed_dim代替等，每一个模块本文主要介绍需要注意的难点，相关api 用法链接有附上，放心使用

主要参考链接：

多头注意力实现部分

从自注意力实现 --> 多头注意力实现，主要难理解的是各种维度的来回变化以及原理步骤的实现比较抽象，但是有个人的详细解析应该可以看懂

embeding 模块

主要是 embeding 方法的封装，有测试用例可以看下我的代码(比较简单)

encoder 模块

实现 encoder 侧 encoder block 结构连接以及block 内的计算（比较简单）

decoder 模块

decoder 中和 encoder 有很大一部分相似但是难点在于其中一个有掩码的多头实现和无掩码的多头的连接，相对复杂，但是比较抽象的掩码部分有测试例子

前馈神经网络模块

根据公式实现即可，公式也比较简单

位置 embeding 模块

这个位置编码的实现相对比较复杂，所以我通过注释相对比较详细的介绍了具体实现方法，注意要理解位置编码本身原理才更好理解代码实现，同样有测试例子

工具包模块

包含 block 堆叠方法的封装, Add & Norm 模块的实现，训练和评分模块的封装，动态更新学习率的实现(未看懂但是公式见下图)，优化器的封装，标签平滑(未看懂，一种正则方法)，为看懂部分有测试用例可以辅助理解

整体模块封装

把上面所有的模块按照 transformer 的结构图封装

测试例子(没看懂比较抽象，但是进测试可以运行)

注： jupyter 文件是我测试使用，个人理解的注释以及api 使用的参考链接在这里面，py 文件是参考代码，因为 jupyter 稳健调用只能调py 稳健所以放在同一级目录下

结尾

这个代码的解析真的很费时间，但是确实对自己理解算法原理有很大帮助，实现的时候还是有很多优化的，这些优化还是算法独有的确实很深奥，仅供参考
代码地址：github

上一篇：国产大模型推理能力已超GPT-3.5！冲进OpenAI评测榜第一梯队

下一篇：PHP 如何创建一个 composer 包并在项目中使用自己的 composer sdk 包

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03OpenClaw 连接飞书完整指南：插件安装、配置与踩坑记录 04Window 10部署openclaw报错node.exe : npm error code 128 05本地部署 OpenClaw + DeepSeek-R1 完全指南 06OpenClaw + 飞书（Feishu）环境搭建指南 07npm-error code 128问题解决方法 08Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 09Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 10OpenClaw 飞书机器人不回复消息？3 小时踩坑总结