transformer总结超详细代码篇

transformer 初版链接

attention 代码链接

attention 初版链接

引言:

  • 本文为 transformer 代码篇,主要包含具体实现过程以及过程中遇到的具体细节问题以及实现问题,仅供参考,相关原理介绍可以参考上面链接。
  • 代码部分是本人解读别人实现的代码,对一些作者认为不用注释但是新手又看不懂的个人理解,但是由于工程量确实很大也很复杂我只是想学习一下具体实现过程应付面试所以部分模块的优化代码以及最后的训练部分依然没有完全解析,以后对原理的进一步加深后再来完善
  • 参考代码中参数的名称一开始我是按照自己的理解改变来了名称后来才发现是论文中就这么定义名字的,所以注意我的解析代码中参数名字可能有些混乱,主要是 src 用 input 代替,tgr 用 target 代替,d_model用 embed_dim代替等,每一个模块本文主要介绍需要注意的难点,相关api 用法链接有附上,放心使用

主要参考链接:

参考代码

解析较多

参考代码 2

多头注意力实现部分

  • 从自注意力实现 --> 多头注意力实现,主要难理解的是各种维度的来回变化以及原理步骤的实现比较抽象,但是有个人的详细解析应该可以看懂

embeding 模块

  • 主要是 embeding 方法的封装,有测试用例可以看下我的代码(比较简单)

encoder 模块

  • 实现 encoder 侧 encoder block 结构连接以及block 内的计算(比较简单)

decoder 模块

  • decoder 中和 encoder 有很大一部分相似但是难点在于其中一个有掩码的多头实现和无掩码的多头的连接,相对复杂,但是比较抽象的掩码部分有测试例子

前馈神经网络模块

  • 根据公式实现即可,公式也比较简单

位置 embeding 模块

  • 这个位置编码的实现相对比较复杂,所以我通过注释相对比较详细的介绍了具体实现方法,注意要理解位置编码本身原理才更好理解代码实现,同样有测试例子

工具包模块

  • 包含 block 堆叠方法的封装, Add & Norm 模块的实现,训练和评分模块的封装,动态更新学习率的实现(未看懂但是公式见下图),优化器的封装, 标签平滑(未看懂,一种正则方法),为看懂部分有测试用例可以辅助理解

整体模块封装

  • 把上面所有的模块按照 transformer 的结构图封装

测试例子(没看懂比较抽象,但是进测试可以运行)

  • 注: jupyter 文件是我测试使用,个人理解的注释以及api 使用的参考链接在这里面,py 文件是参考代码,因为 jupyter 稳健调用只能调py 稳健所以放在同一级目录下

结尾

  • 这个代码的解析真的很费时间,但是确实对自己理解算法原理有很大帮助,实现的时候还是有很多优化的,这些优化还是算法独有的确实很深奥,仅供参考
  • 代码地址:github
相关推荐
一碗白开水一35 分钟前
【第19话:定位建图】SLAM点云配准之3D-3D ICP(Iterative Closest Point)方法详解
人工智能·算法
编码浪子36 分钟前
趣味学RUST基础篇(函数式编程闭包)
开发语言·算法·rust
Want5951 小时前
C/C++圣诞树②
c语言·c++·算法
索迪迈科技2 小时前
算法题(203):矩阵最小路径和
线性代数·算法·矩阵
默默无名的大学生2 小时前
数据结构——链表的基本操作
数据结构·算法
Neverfadeaway2 小时前
C语言————冒泡排序(例题2)
c语言·数据结构·算法·冒泡排序·升序排列·降序排列
惊鸿.Jh2 小时前
1733. 需要教语言的最少人数
算法·leetcode
大千AI助手3 小时前
SPEA2多目标进化算法:理论与应用全解析
算法·多目标优化·种群·spea2·mop·moea·帕累托最优
AndrewHZ3 小时前
【图像处理基石】图像处理中的边缘检测算法及应用场景
图像处理·算法·计算机视觉·cv·算子·边缘检测
熊文豪4 小时前
【华为OD】区块链文件转储系统
算法·华为od·区块链