Transformer 八周年!Attention Is All You Need 被引破 18 万封神

【新智元导读】Transformer 已满 8 岁,革命性论文《Attention Is All You Need》被引超 18 万次,掀起生成式 AI 革命。

Transformer,八岁了!

开创如今这场生成式 AI 革命的论文《Attention Is All You Need》迎来了第 8 个年头。

Transformer 催生了 ChatGPT、Gemini、Claude 等诸多前沿产品。

更重要的是,它让人类真正跨入了生成式 AI 时代。

人类和生成式 AI 的命运从 2017 年 6 月 12 日周一下午 17 点 57 分开始交汇。

Transformer 的影响依然还在继续!

到今天为止,这篇论文的被引次数已经到了 184376!

而在两年前的 6 周年时候,被引次数是 77926

仅仅过去两年时间,被引用次数翻了 2 倍还多!

网友们也纷纷为 Transformer 8 岁生日送上祝福。

但和所有传奇故事的开头都非常相似,这篇论文当年甚至没有引起人们的 Attention(注意)。

一篇未获人们「Attention」的传奇论文

Transformer 发表在 2017 年的 NeurIPS 上,这是全球顶级的人工智能会议之一。

然而,它甚至没有获得 Oral 演讲,更不用说获奖了。

2017 年的 NeurlPS 获奖论文

从如今的影响力和现实意义来看,谷歌公开这篇文章算得上是「功德无量」。

网友也盛赞谷歌的做事方式,允许任何人完全免费使用,甚至不需要许可证授权。

但随着生成式 AI 的发展,各家巨头的加入,谷歌也开始逐渐收回自己的「善意」。

在大模型如今竞争白热化的当下,谷歌 DeepMind 要求所有科研人员的生成式 AI 相关论文设定 6 个月禁发期!

DeepMind 的 CEO Hassabis 曾表示:不接受,就辞职,这里是公司,不是大学校园;想在大学那样的环境工作,那就请你离开。

不仅如此,创新成果不发,Gemini 短板也不能提。

或许谷歌一开始也并没有预料到 Transformer 会影响人类历史如此深远。

人人都爱 Transformer

作为一篇严肃的机器学习向论文,《Attention Is All You Need》自发布以来,已经有无数人进行了解读。

不论是否和机器学习行业相关,人们「渴望」搞清楚目前生成式 AI 的能力究竟来源于哪里。

不论是国内还是海外,试图带你读懂论文的视频都有很高的热度,并且直到今天,「教你学会」、「带你看懂」等内容依然有非常高的播放量。

科技领域的顶级 KOL Lex Fridman 和 AI 界的顶级科学家 Andrej Karpathy 认为 Transformer 是 AI 世界中「最棒的想法」,没有之一。

而「XXX Is All You Need」甚至成为了严肃学界乐此不疲的玩梗素材。

论文题目直接套用了披头士名曲《All You Need Is Love》的说法,也正因其简洁而响亮的表达方式,迅速被 AI 学界和网络社区广泛引用和调侃------

从「Attention Is All You Need」延伸为「X Is All You Need」的各种变体,形成一整套互联网 meme 式的幽默结构 。

「标题的成功」还引发了一连串同样玩梗的论文出现,这些论文的标题或内容都借用了这一俏皮话。

有研究人员甚至制作了一张图展示了对所有这些论文的综述,使读者能够总结出这些论断出现的背景及其原因。

Transformer 后时代:AI 八年狂飙

自 Transformer 问世以来的八年间,研究者和工程师们围绕这一架构进行了大量探索和改进。

Transformer 的发展历程既包括模型本身的架构优化 ,也包括模型规模的指数级扩展 ,以及向多模态领域的延伸融合。

Transformer 架构天然适合并行计算,这使得研究人员能够不断堆高模型参数规模,验证「大模型是否更聪明」。

事实也证明,参数和数据规模的扩张带来了质的飞跃

从最初论文中的亿级参数模型,到 2018 年的 BERT(3.4 亿参数)和 GPT-2(15 亿参数),再到 2020 年的 GPT-3(1750 亿参数),模型大小呈指数级增长。

OpenAI 等机构的研究揭示了清晰的 Scaling Law(规模定律):模型越大,数据越多,性能越佳且涌现出小模型不具备的新能力。

随着规模扩张,Transformer 模型展现出令人惊叹的零样本 / 小样本学习能力,即无需或只需极少示例就能完成新任务。

模型规模的扩展带来了 AI 能力的质变,使 Transformer 成为真正的基础模型(Foundation Model)------一经训练即可泛化支持众多下游应用。

不过,每个传奇故事似乎都没有那么 Happy Ending 的结尾。

曾经联手打造出谷歌最强 Transformer 的「变形金刚们」如今也已分道扬镳。

8 年前一篇不起眼的论文,却彻底开启了人类的生成式 AI 时代。

这个被忽视的小论文,彻底开启了 AI 的大时代。

它的故事还远远没有结束。

目前的 AI 仍然继续在 Transformer 架构基础上狂飙突进。

Transformer 的影响力还能持续多久,也许只有等 AGI 实现那天来回答了。

但无论未来 AI 技术如何演变,Transformer 已经在历史上留下永久且深刻的印记。

参考资料:

Transformer 全新里程碑!诞生 6 年,开山之作被引近 8 万,没夺下 NeurIPS 最佳论文,却彻底改变 AI 界

Transformer 八子全部叛逃谷歌!最后一位共同作者月底离职创业

相关推荐
go546315846516 分钟前
基于LSTM和GRU的上海空气质量预测研究
图像处理·人工智能·深度学习·神经网络·算法·gru·lstm
AKAMAI19 分钟前
借助Early Hints和HarperDB改善网页性能
人工智能
亿坊电商31 分钟前
AI 数字人在处理音频时,如何确保声音的自然度?
人工智能·算法·音视频
愚戏师40 分钟前
机器学习(重学版)基础篇(概念与评估)
人工智能·机器学习
我有一计3331 小时前
【算法笔记】6.LeetCode-Hot100-链表专项
人工智能·算法·程序员
新智元1 小时前
10亿天价挖角惨遭12人连环拒,小扎钞能力失灵!OpenAI系初创0人卖身
人工智能·openai
新智元1 小时前
ChatGPT「学习模式」火爆上线,一大波教育AI连夜被端!24小时导师免费用
人工智能·openai
go54631584651 小时前
基于YOLOP与GAN的图像修复与防御系统设计与实现
人工智能·深度学习·神经网络·机器学习·生成对抗网络·矩阵
居然JuRan2 小时前
打破常规!OpenAI无向量化RAG技术全解析
人工智能
算家计算2 小时前
从基础到自治:Agent开发进阶全流程与实战指南
人工智能·agent