技术栈
tranformer
Icys
7 个月前
深度学习
·
算法
·
tranformer
Transformer从入门到精通(The Annotated Transformer翻译)
Attention is All You NeedTransformer架构这五年来深受人们重视。 本文是以逐行代码的形式对原论文进行注释的版本。 本文对原论文一部分章节进行了重新排序和删除,并在整个文档中添加了注释。 本文本身是一个可以运行的笔记(ipynb),理论上完全可以直接复现。