GTC大会干货：8位大佬对Transformer起源和未来发展的探讨

添加图片注释，不超过 140 字（可选）

在2024年的GTC大会上，黄仁勋特邀Transformer机器语言模型的七位创造者，共同探讨Transformer模型的过去、现在与未来。他们一致认为，尽管Transformer已经成为现代自然语言处理领域的基石，但这个世界仍然需要超越Transformer的新颖架构，能够引领我们到达新的性能高度。

Transformer 8位创造者

Ashish Vaswani，EssentialAI 联合创始人兼 CEO
Noam Shazeer，Character.AI 首席执行官兼联合创始人
Jakob Uszkoreit，Inceptive 联合创始人兼首席执行官
Llion Jones，SakanaAI 联合创始人兼首席技术官
Aidan Gomez，Cohere 联合创始人兼首席执行官
Lukasz Kaiser，OpenAI 技术人员
Illia Polosukhin，NEAR Protocol 联合创始人
Niki Parmar，EssentialAI 联合创始人（因家庭原因未出席）

黄仁勋表示在过去20年，PC变革使计算成本降低了1万倍，但目前趋势已趋向平缓，我们开始追求加速计算，在计算机图形和游戏领域不断推动者技术创新，如果我们能够加速代表 99% 运行时间的 1% 代码，那么在某些应用领域，我们将获得巨大的好处，实现巨大的差异。GPU加速计算和人工智能的结合，让生成式AI展示出巨大能力，生成式 AI 不仅可以识别图像，还可以根据文本描述生成相应的图像，这也将带来新的工业革命，能够创造一些从未存在过的东西。

01 Transformer诞生与价值

Noam Shazeer：早在 2015 年，我们就看到了这个规模效应。让模型变得更大，它就变得更聪明。你只需要扩大规模，模型能够执行数百万种不同的任务。

Ashish Vaswani：Transformer出现时，我就意识到梯度下降训练的模型是一个很好的老师。而且可扩展的通用架构终将赢得长期胜利。今天是tokens，明天可能是我们在计算机上执行的动作，它会开始模仿我们的活动，自动化我们大量的工作。

02Transformer进步空间

Aidan Gomez：我认为在推理方面，人们已经做了大量工作来加速这些模型，提高效率。但我仍然觉得有些不安，现在还是离我们最初的形式太相近了。我觉得世界需要比transformer更强的东西。

Llion Jones：现在的计算量太大了。我想人们处于大量的计算量浪费。我认为，计算是接下来必须解决的问题之一。我们需要知道针对特定问题应该投入多少计算资源。

Ashish Vaswani：我们最初的目标是模拟 token 的演变，实现线性生成。现在这个过程也适用于图像，扩散模型会迭代地进行改进和完善。根本的问题是，哪些知识应该存在于模型内部，哪些应该存在于模型外部？例如，推理应该在外部使用符号系统进行，这是一个效率的论点。

Jensen 向 Ashish Vaswani 赠送了签名的 DGX-1 封面

03创业的理念

Ashish Vaswani：一个超级智能AI是无法诞生在学术实验室的。我们必须要走出去，接触社会，让世界与这些模型互动，从中获取反馈，并让它们变得更聪明。做到这一点的方式就是走出去，创建新的学习体验。

Jakob Uszkoreit：AI真的可以帮助我们在实际生活生产中做很多有效率的事情，Alphafold2（DeepMind旗下研发蛋白质设计的人工智能公司）研发结果公布，Alphafold2和Alphafold1最关键的区别使用了Transformer架构，提升了算法模型效率。

Llion Jones：我们想做的是以自然界为灵感的AI公司，也会做开源，将现在所有可用模型放在了Huggng Face上，然后使用了大量的计算量进行进化计算（evolutionary computation）来探索合并、堆叠图层的方法。

Aidan. Gomez：我创办的Cohere是面向企业的AI公司。我们创建了一个平台，让每个企业都可以采用和集成这项技术到他们的产品中，而不是直接面向消费者。我们想用这种方式让社会接触AI的手段更加简便、成本更低。

04未来的AI模型发展的方向

Lllia Polosukhin：下一代模型更看重与用户的交互，需要来自大规模用户互动的数据。

Llion Jones：下一个更重要的方向是训练AI的推理和自主决策能力，现在大部分的机器训练和人机交互还是人工手动输入指令的，我们现在需要做的是训练机器强大的推理能力。

Jakob Uszkoreit：另一个方向是模型应该生产出人类世界的商品，也就是人们想要消费的东西，而在这之前机器必须接受所有刺激人类消费欲望的训练和指令。在那时，所有音视频等三维世界观察世界的信息都由AI自动化完成。

Lukasz Kaiser：是的，就像是用人的思维方式进行思考。只需要小规模的数据就可以得到像样的AI系统。因为AI的推理能力越强，所需要的数据训练量就越少，因为那时的AI更加智能了，可以自己检索信息、生成信息、进行规划。扫码加入沟通群