Transformer 八周年!Attention Is All You Need 被引破 18 万封神

【新智元导读】Transformer 已满 8 岁,革命性论文《Attention Is All You Need》被引超 18 万次,掀起生成式 AI 革命。

Transformer,八岁了!

开创如今这场生成式 AI 革命的论文《Attention Is All You Need》迎来了第 8 个年头。

Transformer 催生了 ChatGPT、Gemini、Claude 等诸多前沿产品。

更重要的是,它让人类真正跨入了生成式 AI 时代。

人类和生成式 AI 的命运从 2017 年 6 月 12 日周一下午 17 点 57 分开始交汇。

Transformer 的影响依然还在继续!

到今天为止,这篇论文的被引次数已经到了 184376!

而在两年前的 6 周年时候,被引次数是 77926

仅仅过去两年时间,被引用次数翻了 2 倍还多!

网友们也纷纷为 Transformer 8 岁生日送上祝福。

但和所有传奇故事的开头都非常相似,这篇论文当年甚至没有引起人们的 Attention(注意)。

一篇未获人们「Attention」的传奇论文

Transformer 发表在 2017 年的 NeurIPS 上,这是全球顶级的人工智能会议之一。

然而,它甚至没有获得 Oral 演讲,更不用说获奖了。

2017 年的 NeurlPS 获奖论文

从如今的影响力和现实意义来看,谷歌公开这篇文章算得上是「功德无量」。

网友也盛赞谷歌的做事方式,允许任何人完全免费使用,甚至不需要许可证授权。

但随着生成式 AI 的发展,各家巨头的加入,谷歌也开始逐渐收回自己的「善意」。

在大模型如今竞争白热化的当下,谷歌 DeepMind 要求所有科研人员的生成式 AI 相关论文设定 6 个月禁发期!

DeepMind 的 CEO Hassabis 曾表示:不接受,就辞职,这里是公司,不是大学校园;想在大学那样的环境工作,那就请你离开。

不仅如此,创新成果不发,Gemini 短板也不能提。

或许谷歌一开始也并没有预料到 Transformer 会影响人类历史如此深远。

人人都爱 Transformer

作为一篇严肃的机器学习向论文,《Attention Is All You Need》自发布以来,已经有无数人进行了解读。

不论是否和机器学习行业相关,人们「渴望」搞清楚目前生成式 AI 的能力究竟来源于哪里。

不论是国内还是海外,试图带你读懂论文的视频都有很高的热度,并且直到今天,「教你学会」、「带你看懂」等内容依然有非常高的播放量。

科技领域的顶级 KOL Lex Fridman 和 AI 界的顶级科学家 Andrej Karpathy 认为 Transformer 是 AI 世界中「最棒的想法」,没有之一。

而「XXX Is All You Need」甚至成为了严肃学界乐此不疲的玩梗素材。

论文题目直接套用了披头士名曲《All You Need Is Love》的说法,也正因其简洁而响亮的表达方式,迅速被 AI 学界和网络社区广泛引用和调侃------

从「Attention Is All You Need」延伸为「X Is All You Need」的各种变体,形成一整套互联网 meme 式的幽默结构 。

「标题的成功」还引发了一连串同样玩梗的论文出现,这些论文的标题或内容都借用了这一俏皮话。

有研究人员甚至制作了一张图展示了对所有这些论文的综述,使读者能够总结出这些论断出现的背景及其原因。

Transformer 后时代:AI 八年狂飙

自 Transformer 问世以来的八年间,研究者和工程师们围绕这一架构进行了大量探索和改进。

Transformer 的发展历程既包括模型本身的架构优化 ,也包括模型规模的指数级扩展 ,以及向多模态领域的延伸融合。

Transformer 架构天然适合并行计算,这使得研究人员能够不断堆高模型参数规模,验证「大模型是否更聪明」。

事实也证明,参数和数据规模的扩张带来了质的飞跃

从最初论文中的亿级参数模型,到 2018 年的 BERT(3.4 亿参数)和 GPT-2(15 亿参数),再到 2020 年的 GPT-3(1750 亿参数),模型大小呈指数级增长。

OpenAI 等机构的研究揭示了清晰的 Scaling Law(规模定律):模型越大,数据越多,性能越佳且涌现出小模型不具备的新能力。

随着规模扩张,Transformer 模型展现出令人惊叹的零样本 / 小样本学习能力,即无需或只需极少示例就能完成新任务。

模型规模的扩展带来了 AI 能力的质变,使 Transformer 成为真正的基础模型(Foundation Model)------一经训练即可泛化支持众多下游应用。

不过,每个传奇故事似乎都没有那么 Happy Ending 的结尾。

曾经联手打造出谷歌最强 Transformer 的「变形金刚们」如今也已分道扬镳。

8 年前一篇不起眼的论文,却彻底开启了人类的生成式 AI 时代。

这个被忽视的小论文,彻底开启了 AI 的大时代。

它的故事还远远没有结束。

目前的 AI 仍然继续在 Transformer 架构基础上狂飙突进。

Transformer 的影响力还能持续多久,也许只有等 AGI 实现那天来回答了。

但无论未来 AI 技术如何演变,Transformer 已经在历史上留下永久且深刻的印记。

参考资料:

Transformer 全新里程碑!诞生 6 年,开山之作被引近 8 万,没夺下 NeurIPS 最佳论文,却彻底改变 AI 界

Transformer 八子全部叛逃谷歌!最后一位共同作者月底离职创业

相关推荐
书玮嘎19 分钟前
【WIP】【VLA&VLM——InternVL系列】
人工智能·深度学习
猫头虎30 分钟前
猫头虎 AI工具分享:一个网页抓取、结构化数据提取、网页爬取、浏览器自动化操作工具:Hyperbrowser MCP
运维·人工智能·gpt·开源·自动化·文心一言·ai编程
潘锦36 分钟前
海量「免费」的 OPENAI KEY,你敢用吗?
安全·openai
要努力啊啊啊38 分钟前
YOLOv2 正负样本分配机制详解
人工智能·深度学习·yolo·计算机视觉·目标跟踪
CareyWYR1 小时前
大模型真的能做推荐系统吗?ARAG论文给了我一个颠覆性的答案
人工智能
特立独行的猫a1 小时前
百度AI文心大模型4.5系列开源模型评测,从安装部署到应用体验
人工智能·百度·开源·文心一言·文心一言4.5
SKYDROID云卓小助手1 小时前
无人设备遥控器之自动调整编码技术篇
人工智能·嵌入式硬件·算法·自动化·信号处理
小陈phd1 小时前
李宏毅机器学习笔记——梯度下降法
人工智能·python·机器学习
CareyWYR1 小时前
每周AI论文速递(250630-250704)
人工智能