Transformer 学习路线说明

目录

一、6篇建议阅读的Transformer文献

二、5篇建议阅读的博客或视频

[三、上述 Transformer 文献的基本介绍](#三、上述 Transformer 文献的基本介绍)

四、学习顺序


、6篇建议阅读的T ran sformer文献

1 Bahdanau D, Cho K, Bengio Y. Neural Machine Translation by Jointly Learning to Align and TranslateJ. Computer Science, 2015.

2 Cheng J, Dong L, Lapata M. Long Short-Term Memory-Networks for Machine ReadingJ. 2016.

3 Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You NeedJ. arXiv, 2017.

4 An Image Is Worth 16X16 Words: Transformers For Image Recognition At Scale

5 Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding

6 Efficient Transformers: A Survey

、5篇建议阅读的 博客或视频

7 The Illustrated Transformer -- Jay Alammar -- Visualizing machine learning one concept at a time. (jalammar.github.io)

8

Transformer详解(看不懂你来骂我)_transformer 详解 espresso encode notebooks transform-CSDN博客

9 The Annotated Transformer (harvard.edu)

10 台大李宏毅21年机器学习课程 self-attention和transformer_哔哩哔哩_bilibili

11 清华博士花费8小时录制的【Transformer实战教程】吐血上传草履虫也能学会的Transformer代码!(深度学习入门/神经网络/人工智能)_哔哩哔哩_bilibili

三、上述 Transformer 文献的基本介绍

Transformer 3是一种 seq2seq 模型,由Google于2017年提出,是一种完全基于注意力机制且没有类 RNN 或卷积的网络结构,最早适用于 NLP 领域。

Transformer 与文献 1, 2 中的注意力机制的原理相同但实现方式有区别,1, 2 中的注意力机制是依赖于类 RNN 网络的隐层输出得到的,而 Transformer 中的自注意力是直接从输入数据中计算得出的。

文献 3 详细地描述了Transformer的总体结构以及各个模块的组成内容,其中的核心部分注意力机制也有示意图展示。

文献 4 是ICLR 2021里的一篇Paper,这篇文献提出了ViT图像分类模型。虽然不是第一篇将transformer应用在视觉任务的论文,但是因为其模型"简单"且效果好,可扩展性强(模型越大效果越好),成为了 Transformer 在 CV 领域应用的里程碑著作。其得出的结果为:当拥有足够多的数据进行预训练的时候,ViT 的表现就会超过 CNN,突破 Transformer 缺少归纳偏置的限制。

文献 5 中提出了Bert模型。BERT(Bidirectional Encoder Representations from Transformers)是一种Transformer的双向编码器,旨在通过在左右上下文中共有的条件计算来预先训练来自无标号文本的深度双向表示。因此,经过预先训练的BERT模型只需一个额外的输出层就可以进行微调,从而为各种自然语言处理任务生成最新模型。

文献 6 对近些年来产生的 Transformer 模型进行了分类,但主要关注attention模块的效率问题。

四、 学习顺序

首先阅读文献 12 了解注意力机制在传统RNN或CNN中的应用。

再阅读文献 3 了解Transformer的基本结构以及注意力机制在整个网络中的作用。因为此论文并没有对每个结构做详细的分析,可以对照博客 7 进行对照阅读。

博客 7 主要对Attention结构和整个网络的运行步骤进行了分析,通过此博客可以了解整个Attention机制的计算步骤以及网络的数据流动方式。但此博客对其它结构并没有详细的描述,例如词嵌入层。因此可以阅读博客 8 来查漏补缺。

博客 8 对各个模块都进行详细的分析(如LayerNorm,Embedding),并且包含示意图分析,理解起来比较容易,部分分析还附带代码展示。模型的代码可以在博客 9 里找到,此博客根据文献 3 的内容撰写了代码,而且是根据文献每一段的内容附上相应代码,因此可以清晰知道每一部分代码实现了什么功能,对应原文什么模块。因为是全英文撰写,阅读起来有困难可以配合着视频 11 一起学习。

视频 11 分模块对每一个代码进行了讲解和演示。经过此学习如果任然对注意力机制有疑惑,可以观看视频 10 进一步加深理解。

相关推荐
是一个Bug3 小时前
Agent(智能体)应用 的入门学习路径
学习·机器学习
2301_809051143 小时前
Linux 网络编程 学习笔记
linux·网络·学习
eggcode4 小时前
【Qt学习】Linux(ARM架构)在线安装Qt6.x
linux·qt·学习·arm
_李小白5 小时前
【android opencv学习笔记】Day 26: 滤波算法之低通滤波与图像缩放插值
android·opencv·学习
2401_876964135 小时前
【湖北专升本】2026湖北专升本真题PDF+备考资料汇总
数据结构·人工智能·经验分享·深度学习·算法·计算机视觉
Bechamz6 小时前
大数据开发学习Day43
大数据·学习
happymaker06268 小时前
SpringBoot学习日记——DAY06(整合MyBatisPlus的其他功能)
java·spring boot·学习
Jmayday8 小时前
NLP第四章:Transformer架构
人工智能·自然语言处理·transformer
星夜夏空999 小时前
FreeRTOS学习(3)——FreeRTOS的移植与剪裁
学习