论文阅读笔记AI篇 —— Transformer模型理论+实战 (一)

资源地址
Attention is all you need.pdf(0积分) - CSDN

第一遍阅读(Abstract + Introduction + Conclusion)

Abstract中强调Transformer摒弃了循环和卷积网络结构,在English-to-German翻译任务中,BLEU得分为28.4, 在English-to-French的翻译任务中的BLEU得分为41.0,用8张GPU训练了3.5天,与各文献中的best models相比,这是非常小的训练成本。

Introduction中对RNN的一些工作做了总结,它说RNN结构本身,在序列长度变长时会产生限制,虽然有些工作通过factorization tricks因式分解 和conditional computation对其进行运算效率上的提高,并且后者可以提高模型性能,但是,对于序列处理的最基本的局限性还是存在的。Attention机制已经在许多任务的序列建模和翻译任务中成为了重要的一部分,并且在大多数情况下,Attention机制都会与recurrent network一起使用。

然后作者说,他们提出了一种抛弃recurrent结构,完全使用Attention机制去描述input与output之间的全局关系。Transformer允许更大的并行度,并且在8张P100的GPU上训练了25h后,就在翻译质量上达到了SOTA。

Conclusion说,Transformer将Encoder-Decoder中最常用的recurrent layers替换成了multi-headed self-attention多头自注意力模块。并且作者他们希望将Transformer推广到只要包括input与output特点的问题上去,而不是仅仅局限于text文本(所以将Transformer应用在图片、音视频中是他们展望的应有之意,而不是说Transformer在无意中完成了CV和NLP的跨界大一统,是作者他们原本就想这么做),并且他们还想探索local, restricted attention mechanisms局部的、受限制的注意力机制,让Generation更少一点sequential序列化也是他们的研究目标(我理解这里应该是说让Transformer不是一个词一个词的串行预测,而是可以多个词一起预测出来?或者说不是语句化的串行生成,而是跳跃式的段落篇章式生成?

参考文章或视频资料
【【计算机博物志】自然语言处理的"古往"和"今来"】 - bilibili
相关推荐
从零开始学习人工智能2 分钟前
车道线检测:自动驾驶的“眼睛”
人工智能·机器学习·自动驾驶
J_Xiong01174 分钟前
【VLNs篇】05:TGS-在无地图室外环境中使用视觉语言模型进行轨迹生成和选择
人工智能·机器学习·语言模型
小程同学>o<9 分钟前
嵌入式开发之STM32学习笔记day10
经验分享·笔记·stm32·单片机·嵌入式硬件·学习
江畔柳前堤31 分钟前
PyQt学习系列05-图形渲染与OpenGL集成
开发语言·javascript·人工智能·python·学习·ecmascript·pyqt
点云SLAM36 分钟前
PyTorch中cdist和sum函数使用详解
数据结构·人工智能·pytorch·python·点云数据处理·3d深度学习·张量计算
仙袂拂月1 小时前
Day 0017:Web漏洞扫描(OpenVAS)解析
笔记·安全·网络安全·学习方法·kali
Christo31 小时前
SIAM-2007《k-means++: The Advantages of Careful Seeding》
大数据·人工智能·算法·机器学习·支持向量机·kmeans
IT技术猿猴1 小时前
一键生成专业流程图:Draw.io与AI结合的高效绘图指南
人工智能·流程图·draw.io
缘友一世1 小时前
PyTorch中TensorBoardX模块与torch.utils.tensorboard模块的对比分析
人工智能·pytorch·python
缘友一世2 小时前
TensorBoard安装与基本操作指南(PyTorch)
人工智能·pytorch·python