推理计算：GPT-o1 和 AI 治理

GPT-o1 展示了如何在推理时利用更多计算来增强 AI 推理能力。虽然这一发展是渐进式的，而不是革命性的，但它凸显了推理计算在 AI 影响和治理中日益增长的重要性。

我收到了一些关于 GPT-o1（称为"草莓"）影响的询问。这篇文章记录了我对它与之前研究的关系及其潜在影响的初步想法。与往常一样，这些观点在不断发展，并可能随着我们了解更多信息而改变。虽然还有很多内容要讨论，但我还是倾向于分享一些初步想法。

概括

研究人员找到了另一种提升人工智能能力的方法：GPT-o1 在推理时利用额外的计算来推理并产生更好的答案，从而延续人工智能能力的上升趋势。
这种发展是一种渐进式改进，而不是范式转变。我们之前已经看到推理计算带来了更好的功能，其中思维链推理就是一个典型的例子。
增加推理计算是对训练计算的补充，而不是替代。当可以使用相同的推理技术时，更大的预训练模型仍然具有优势，这两个方面对于提高 AI 能力仍然至关重要。
现有的 AI 治理和政策方法仍然有效。没有重大影响；相反，我们看到了之前观察到的逐渐转变：推理计算的重要性日益增加，凸显了训练后增强的重要性日益增加。
推理计算对于人工智能治理越来越重要，因为它决定了部署的规模。在其他条件相同的情况下，规模越大可能意味着影响越大。例如，在监控状态下，使用多模态人工智能系统的滥用规模（即可以监视多少人）取决于可用的推理计算。就经济影响而言，推理计算决定了经济中运营的人工智能工作者或代理的数量。
这一进展并没有从根本上挑战目前训练计算阈值的使用方式。然而，它凸显了精心设计阈值（包括安全缓冲区）和实施持续更新流程的普遍必要性。
随着人工智能能力的不断进步，从外部视角做出明智的治理决策变得越来越具有挑战性，这凸显了改善技术细节获取渠道或加强研究人员、行业和政策制定者之间合作的必要性。许多悬而未决的问题仍然存在，特别是关于推理过程的细节。人们越来越需要更多的技术见解来为政策决策提供参考，特别是在模型评估、监督和人工智能治理的技术方面。

引言：人工智能能力升级的又一次转折

GPT-o1 的发布引发了许多关于其影响的问题。虽然了解人工智能的最新进展很重要，但保持客观性也至关重要。如果一项发展就足以使所有现有的人工智能治理和政策方法失效，那么这将表明政策制定存在根本缺陷。

最主要的收获应该是研究人员找到了另一种提高人工智能能力的补充方法。能力曲线继续呈上升趋势。这一次，开发人员不再仅仅增加训练计算，而是在推理时利用更多的计算来改进模型的推理能力。这种利用推理计算的转变代表了人工智能能力增强的新前沿。虽然意义重大，但这一发展并没有从根本上改变当前的政策。然而，它确实强调了政策方法对持续灵活性和适应性的必要性。

我一直在思考推理计算的作用。让我们来看看GPT-o1 是什么、它的高级技术含义、我之前对推理计算的看法、一些治理含义以及我尚未解决的问题。

GPT-o1：推理的缩放定律？

GPT-o1 是 OpenAI 最新的 GPT 模型。其关键创新是通过思维链过程增强推理能力。这使得模型可以在回答之前"思考"，从而更好地应对各种任务。该模型通过生成用户不可见的额外标记来实现这一点。这些隐藏的标记代表了模型的逐步推理。思考越多意味着标记越多，这需要更多的计算。计算能力的增加意味着基准测试和任务上的性能更好。

我们看到的类似于我们从训练中了解到的扩展定律，但应用于推理。分配给此推理过程的计算越多，模型性能就越好。虽然将这些观察结果称为"定律"还为时过早，但我们看到推理扩展。

来自OpenAI

渐进式进步，而非范式转变

虽然 GPT-o1 令人印象深刻，但它并不是全新的。这一发展是一种渐进式改进，而不是范式转变。**我们以前就见过推理计算增强功能，例如在早期的思路链实现中。一些人以前称这个过程为"解除束缚"，而另一些人则将其称为"训练后增强"。**训练计算和推理之间的权衡概念也曾被讨论过（阅读 Epoch 的研究有很多 alpha 内容）。这里值得注意的是 OpenAI 如何改进和扩展这种方法，突破推理时间计算使用的极限。

人工智能的能力可以得到显著提高，而不需要昂贵的再培训。

因此，虽然令人兴奋，但这一发展并不是史无前例的；这是人工智能能力持续发展过程中的又一次变革。

双引擎：训练与推理

预训练计算和模型大小仍然至关重要。推理和训练计算都很重要且互补。我们可以将这种关系简化为：

性能 = 计算训练× 算法效率训练× 计算推理× 算法效率推理

这意味着，那些拥有最佳洞察力（预训练的最佳算法（算法效率训练）和将推理计算转化为能力的最有效方法（算法效率推理））的人可以提取最佳能力。这也意味着，即使使用较小的模型（因此训练计算较少），这些对推理技术的新见解和增强的推理计算现在也可以实现以前未曾实现的 AI 能力。

因此，一些参与者可能会因为新的算法见解而获得更多的性能------无论是训练见解（例如，训练数据选择）还是训练后增强（如 GPT-o1 所示）。这种效应并不新鲜：参与者用较小的模型赶上并实现更高的能力被称为"访问效应"。同时，处于前沿的参与者受益于"性能效应"。

摘自我们的论文《提高计算效率对危险能力扩散意味着什么》

要使访问效应发挥作用，我们需要看到 OpenAI 采用的技术传播给更多参与者，而目前情况并非如此。我们缺乏有关其工作原理的详细信息。假设参与者可以访问所有可用信息和技术，他们将能够从给定模型中提取最大功能。

这些推理方面的进步并没有削弱在预训练期间开发的能力的重要性。事实上，**某些训练后增强功能在较大的模型中效果更好，**这表明它们的有效性可能取决于利用具有大量预训练计算的模型的能力。

符号思维链提炼：小模型也能一步步"思考"

推理与人工智能治理

推理对人工智能治理有何影响？许多人遵循这样的原则：使用计算作为人工智能治理的工具主要依赖于大量的预训练计算。我认为这是错误的。我们在这里详细讨论了哪些因素支持将计算作为人工智能治理工具的理由，我在这里讨论了关键的考虑因素，而训练只是其中之一。

如前所述，推理计算的重要性并不是一个新概念。我们之前在几篇论文中讨论过它的重要性和政策思路：

在论文"部署修正"（第 43 页）中，他们讨论了部署监督的想法（基于我之前的草稿）。值得注意的是，我们认为大规模部署可能很重要，并且与影响相关。
在《算力与AI治理》中我们指出：
- 尽管如此，计算治理仍然可以在检测哪些个体参与者拥有和/或使用最大的推理能力方面发挥重要作用，这可能与各种风险和机会相关，[...]。
- $...\] 相反，对于需求量很大的模型，推理需要数千个 AI 芯片，这些芯片位于专门的数据中心，才能充分满足数千名用户的需求。AI 系统的部署范围越广（这需要更多的计算），它们可能产生的影响就越大（既有好处也有坏处）。然而，这种相关性有很多值得注意的地方。影响可能会因应用领域和其他因素而有很大差异。一些推理，甚至某些用户，可能比其他用户带来更高的风险。因此，部署计算与 AI 系统影响之间的关系并不像在训练计算和 AI 能力的背景下观察到的那样明确。$
- 在部署方面，目前不属于《人工智能行政命令》的管辖范围，可以使用客户数据（例如语音或图像）的使用、部署规模、对外部世界的访问级别（例如通过互联网或物理效应器）以及在有限的直接监督下采取行动的能力等因素来设置一系列监管阈值（Shavit 等人，2023 年）。要制定更细致入微的阈值，而不仅仅是单纯的计算能力和使用量，需要政府、计算提供商、人工智能开发者和更广泛的民间社会之间的进一步研究和合作。

推理影响

我们已经确定部署/推理计算非常重要。更大的模型通常更强大，需要更多的部署计算。这决定了您可以部署的模型实例数量、您每秒可以生成的令牌数量，以及您可以服务的用户数量。虽然具体的影响和潜在危害不太清楚且难以确定，但以下是一些计算规模很重要的说明性示例：

人工智能工作者规模：人工智能工作者的数量可能与可用的推理计算呈线性关系。更多的推理计算直接意味着可以同时部署更多的人工智能实例，全天候运行各种任务。这种规模可能对劳动力动态和经济影响产生深远影响。
大规模监控状态：未来，基于人工智能的监控和审查可能会转向越来越强大的 LLM 和多模式系统，以加强互联网审查和高级监控。这些努力的规模和普及性（即可被监控的人数）将主要取决于可用的推理计算及其成本。这成为决定侵入性以及可监控人数的限制因素。
人工智能出口和软实力：推理计算决定用户容量。推理计算能力强大的国家可以"倾销"人工智能服务，让廉价、国家补贴的模型访问充斥国际市场。这反映了出口监控技术和基础设施以建立软实力的历史模式。
经济相关性：推理成本和可用性是 AI 开发周期的关键投入。它们对 AI 开发经济性有重大影响，低成本、高性能的推理计算可能会增加整个 AI 生态系统的收入，这些收入可以再投资于训练更强大的系统。

训练计算阈值面临挑战？

虽然 GPT-o1 并没有从根本上挑战当前的治理方法，但它确实使情况变得复杂。这并不奇怪；仅仅关注预训练计算的简单观点是不够的。

这种发展是否对训练计算阈值提出了挑战？在某种程度上，但我们预料到了这一点。从具有相同训练计算的模型中提取更多功能的选项已经存在。虽然这凸显了持续监控和潜在修订的必要性，但我相信计算阈值的当前用途仍然有效（通常，批评源于误解训练计算阈值旨在实现什么以及如何使用它们）。

有人可能会说，我们现在需要测量推理计算和强化学习计算。然而，这并不是正确的结论；并非所有的 FLOP 都能平等地转化为能力。我们知道，在精心挑选的数据上训练较小的模型可以提高能力（尽管对于需要利用大多数可用数据的大型模型来说，这可能不那么重要）。我们还知道，少量的微调可以显著提高特定基准的性能------但这不一定能提高总体性能。最终，我们关心的是计算如何转化为一般能力，我们已经建立了一些预训练计算理论。训练后增强的情况更加复杂，其中计算利用率以不同的方式转化为能力，我们缺乏既定的缩放定律，有时产生的能力并不通用。我预计这种复杂性会增加。

在我最近关于训练计算阈值的论文中，我认为计算阈值应该基于 GPT-o1 等增强系统的功能，而不是仅仅基于预训练模型的功能。但是，您可以使用底层模型的预训练计算作为指标。这种方法考虑了模型最终将实现的功能。此外，可以添加一个安全缓冲区，以考虑训练后增强功能未来可能出现的改进。GPT-o1 提出了关于这个安全缓冲区大小的问题，这需要更多细节来分析。

训练与推理之间的界限变得模糊

另一个关键教训是训练和推理之间的界限正在变得模糊。推理对于生成合成数据至关重要，而这些数据可能已用于 GPT-o1。这一点尤其重要，因为人类生成的数据的"自然"供应可能不足以满足未来几年越来越大规模的前沿训练运行。此外，先进的人工智能系统可能部分通过"自我游戏"进行训练，这是一个人工智能通过相互交互来改进的过程（正如 AlphaZero 所展示的那样）。这种"训练"范式需要大量使用推理计算，这进一步模糊了训练和推理之间的区别。

计算密集型推理作为防御资产

这些高级推理时间功能依赖于计算，实际上可能为资源充足的参与者提供优势，防止资源不足的参与者滥用。我们在论文"提高计算效率和人工智能能力的传播"中讨论了这一点：

减轻危险能力扩散风险的一种方法是投资防御措施。特别是，大型计算投资者可能能够利用其持续的性能优势来检测和应对不负责任或恶意行为者带来的威胁。例如，大型计算投资者可以提供网络安全工具来自动检测和响应威胁，以防御由流氓行为者开发的功能较弱的模型的攻击。同样，自动检测虚假信息可能会限制人工智能对认知安全的影响。即使模型接近性能上限，大型计算投资者也可能能够通过利用其优越的推理计算量（例如，通过部署更多和/或更快的模型实例）来提供有效的防御措施。

未解决的问题

GPT-o1 的开发提出了有关透明度和技术见解获取的重要问题：

思路链过程是否应该对用户隐藏？OpenAI 选择仅显示摘要，理由包括用户体验、未来监控的潜力和一致性（因为他们不会"安全调整"推理）。
这对模型评估和监督有何影响？评估人员至少应该能够了解整个思路。
这会影响模型权重盗窃的价值吗？算法洞察力不仅限于权重。它们也可以成为推理和脚手架设置的一部分。这使得盗窃的价值可能降低（但仍然是一个重大问题）。
这对窃取权重的计算要求意味着什么？有效窃取可能更加困难，因为你需要更多的计算才能充分发挥其能力。一般来说，我认为许多人低估了针对某些类型的危害（但不是所有类型的危害）需要大规模部署模型的频率（以及由此产生的大量计算基础设施要求）。
强化学习在推理方面是如何运作的？它主要使用合成数据吗？使用了多少计算？这将进一步影响推理计算的重要性并影响整个开发成本。
我们应该在多大程度上期望更大的模型具有更好的推理能力？许多模型权重都用于记忆事实。小型模型能推理得一样好吗？我们不应该期望更大的模型从训练后的增强中获得更多？

这些问题凸显了我专注于人工智能治理技术方面的角色面临的越来越大的挑战。我有许多未解决的技术问题，这些问题应该为我的治理和政策研究提供参考。作为非营利界的局外人，在无法完全掌握技术细节的情况下做出明智的决定变得越来越困难。研究人员如何才能获得更多详细信息？透明度可能有益，但代价高昂。或者，人们可能需要转而担任政府职务，希望他们能很快了解这些类型的数据或可以请求这些数据。

感谢大家就此话题进行深入讨论。这里表达的所有观点均为我个人观点，并且一如既往，可能会随着新信息的出现而发生变化。

如果您也对边缘AI感兴趣，诚挚邀请您参加今年12月14日在上海举办的第十届全球边缘计算大会！边缘5年，逐梦同行！线下参会一天，相当于在边缘计算社区学习一整年！

边缘五年，逐梦前行------第十届全球边缘计算大会强势回归！
<>

重磅发布 | 2024边缘计算产业图谱，揭示行业未来新格局！
<>

2024-10-31

新趋势｜工业AI正在转向------边缘人工智能（Edge AI）
<>

重磅来袭！"2024中国边缘计算企业20强"榜单发布！
<>

2024-04-09