2028年第一个AGI将到来？谷歌DeepMind提6条AGI标准，定义5大AGI等级

【新智元导读】 DeepMind创始人Shane Legg带领的研究团队发表了一篇关于AGI时间表的论文。他指出，LLM已经是AGI雏形，提出了6条定义AGI的标准。而且根据AI能力，他们提出了5个AGI的分类，以及对于AGI风险的评估体系。

人类距离第一个AGI的出现已经越来越近了！

DeepMind联合创始人，首席AGI科学家Shane Legg在不久前的访谈中认为，2028年，人类有50%的概率开发出第一个AGI。

而就在今天，他带领的DeepMind研究团队在Arxiv上公布了一篇论文，直接放出了AGI的路线图和时间表。

论文地址：arxiv.org/abs/2311.02...

虽然论文主题感觉很大很空，但是网友认为文章很好的定义了AGI，避免了以后各种鸡同鸭讲的讨论。

研究团队认为，从性能强度和通用性两个维度，可以将人类和AI的关系划分为5个阶段，而现在大语言模型的出现，正属于第一个通用AI的阶段：AGI雏形。

以OpenAI的ChatGPT，谷歌Bard，Meta的Llama为代表的大模型，已经在通用性上展示出了AGI的潜力。

因为大语言模型已经能完成范围相当广的各类任务，而且表现出了像学习新技能这样的「元认知」能力。

而如果单从AI的性能维度上看，「窄AI（Narrow AI）」类型的AI已经达到了完全超越人类认知的水平。

以AlphaFold，AlphaZero为代表的专业领域AI，在特定领域已经能发现人类智力无法发现的新事物了。研究团队将其称为「超人类窄AI」。

而和人类相比，在某个领域达到99%的人类的水平，比如在棋类竞技中能够战胜人类顶尖大师的「深蓝」和AlphaGo，就属于这一类。研究团队将它们称为「大师级窄AI」。

而在某些领域，AI能达到90%的人类水平，比如文书纠正AI Grammarly，DALL·E 2，Imagen等生图AI。研究团队将其称为「专家级窄AI」。

在特定领域，能达到普通人的平均水平，比如Siri，谷歌助手这类普通智能助理。研究团队将其称为「普通窄AI」。

而在这四个窄AI已经覆盖的能力维度上，通用AI都还没有出现对应的实例。

而进一步，因为目前还没有出现真正意义上的AGI，对于AGI的定义，人类还没有达到统一的认知。

所以论文中还提供了定义AGI的6个准则：

关注能力而非过程。AGI定义应该关注一个系统能达到的效果，而不是实现这些效果的内在机制。

关注通用性和性能。AGI定义应同时考量通用性和性能这两个维度。

关注认知和元认知任务。AGI的定义应关注认知任务，以及元认知能力如学习新技能。不需要作为前提要求。

关注潜能而非部署。理论上证明系统能完成某类任务就可认为它具备AGI潜能，不需要一定要实际部署。

关注真实场景。用于AGI测评的任务应考虑真实场景的适用性，而不仅是容易量化的指标。

关注通向AGI的路径，而非单一目标。AGI定义应采用分级方式，考虑不同水平的路径，而不仅是最终目标。

在论文的最后一个部分，作者还提出了对于未来可能出现的AGI的测评与风险评估问题。

在作者看来，需要考虑人类与AGI的互动模式，仅看模型能力来评估AGI是非常片面的。

具体来说，AGI的能力不同于AGI的自主性。随着AGI能力的增强，会解锁更高级的人机互动模式，但不意味着就必须给予AGI最大的自主性。

在这个技术之上，作者提出了6种人机互动模式：无AI、AI工具、AI顾问、AI协作者、AI专家、AI智能体。

不同的人机互动模式需要不同的AGI能力作为前提，比如AI智能体可能需要AI能力达到专家或者超人类AI级别，才能更好地完成这个互动模式处理的任务。

人机互动模式本身会引入不同类型的风险。例如AI智能体具有最高的自主性，但同时也引入了最大风险。

因此，AGI的风险评估需要同时考虑模型能力和人机互动模式。合理的互动模式选择有助于AGI系统的负责任部署。

人机互动研究需要与模型能力提升保持同步，以支持对AGI系统的安全且有效的利用。

AGI，黎明还是黄昏？

从1955年达特茅斯人工智能会议开始，人类就朝着实现「真正的智能」这颗北极星曲折前进，途中也经过了不同的道路。

AGI的概念与对人工智能进步的预测有关，它正在朝着更大的普遍性发展，接近并超越人类的普遍性。此外，AGI通常与「涌现」一词交织在一起，有能力实现开发人员未明确预期的功能。这种能力使新型互动或新行业成为可能。AGI可能产生重大的经济影响------我们是否达到了广泛劳动力替代的必要标准？AGI还可能带来与经济优势有关的地缘政治以及军事上的影响。同样，我们也应该通过评估AGI的水平来预防她带来的风险。正如一些人推测的那样，AGI系统可能能够欺骗和操纵、积累资源、推进目标、代理行为，并递归地自我改进，最终在广泛的领域中取代人类。所以，对于人工智能研究界来说，明确反思我们所说的「AGI」的含义，并量化人工智能系统的性能、通用性和自主性等属性至关重要。我们必须理解自己在AGI道路上所处的位置。

AGI案例分析

首先，我们应当考虑如何正确定义AGI，也许可以从一些案例中获得启发。

案例1：图灵测试。1950年的图灵测试可能是将类似AGI的概念付诸实践的最知名的尝试。图灵的「模仿游戏」被认为是一种将机器是否可以思考的问题操作化的方法。鉴于现代LLM通过了图灵测试的一些框架，很明显，这个标准不足以作为评估AGI的基准。我们同意图灵的观点，机器是否可以「思考」确实是一个有趣的哲学和科学问题，但机器能做什么的问题显然对于评估影响更重要，也更易于衡量。因此，AGI应该根据能力而不是过程来定义。案例2：与人脑的类比。「通用人工智能」一词的最初使用是在1997年马克·古布鲁德撰写的一篇关于军事技术的文章中，该文章将AGI定义为「在复杂性和速度上与人脑相媲美或超过人脑的人工智能系统」。虽然现代ML系统背后的神经网络架构松散地受到人脑的启发，但基于transformer的架构的成功表明，严格的基于大脑的过程和基准对于AGI来说并不是必要的。案例3：学习任务的能力。在《技术奇点》中，沙纳汉认为，AGI是「人工智能」，它不是专门用于执行特定任务的，而是可以学习执行与人类一样广泛的任务。该框架的一个重要特性是它强调将元认知任务（学习）纳入实现AGI的要求中的价值。案例4：具有经济价值的工作。OpenAI的章程将AGI定义为「高度自主的系统，在最具经济价值的工作中表现优于人类」。这个定义侧重于与底层机制无关的性能，并且提供了潜在的衡量标准，即经济价值。但问题在于，有许多与智力相关的任务可能没有明确的经济价值（例如，艺术创造力或情商）。而且，我们很可能拥有在技术上能够执行经济上重要任务的系统，但由于各种原因（法律、道德、社会等）而没有意识到这种经济价值。案例5：马库斯认为AGI是「任何智能的简写，具有与（或超越）人类智能相当的足智多谋和可靠性」。他通过提出五项具体任务（理解一部电影、理解一本小说、在任意厨房做饭、编写一个无错误的10000行程序以及将自然语言数学证明转换为符号形式）来实施他的定义。案例6：Agüera y Arcas和Norvig认为最先进的LLM已经是AGI，而通用性是AGI的关键属性。由于语言模型可以讨论广泛的主题、执行广泛的任务、处理多模态输入和输出，以多种语言操作，并从零样本或少样本示例中「学习」，它们已经达到了足够的通用性。

AGI六大准则

通过对以上几个案例的思考，作者为AGI的定义制定了以下六个标准：

第一条：关注能力，而不是流程。大多数定义关注的是AGI可以完成什么，而不是它完成任务的机制。

这对于识别不一定是实现AGI的先决条件的特征非常重要。

因为，实现AGI并不意味着系统以类似人类的方式思考或理解；也并不意味着系统具有意识或感知等。

第二条：注重通用性和性能。上述所有定义都在不同程度上强调普遍性，另外，性能也是AGI的关键组成部分。

第三条：专注于认知和元认知任务。

人工智能系统的物理能力似乎落后于非物理能力。作者认为，执行物理任务的能力增加了系统的通用性，但不应被视为实现AGI的必要先决条件。

另一方面，元认知能力（例如学习新任务的能力或知道何时向人类寻求澄清或帮助的能力）是系统实现通用性的关键先决条件。

第四条：关注潜力，而不是部署。因为要求部署作为衡量AGI的条件会带来非技术障碍，例如法律和社会考虑，以及潜在的道德和安全问题。

第五条：注重生态效度。这里强调选择与人们重视的现实世界（即生态有效）任务相一致的任务的重要性（广义地解释价值，不仅作为经济价值，还包括社会价值、艺术价值等）。

最后一条：专注于AGI的路径，而不是单个端点。作者将AGI的每个级别与一组明确的指标相关联，并且每个级别引入已识别风险，以及由此产生的人机交互范式的变化。

AGI水平定义

作者给出如下表格，清晰地提出了一种分类或者说评估方法，规定了达到给定评级所需的大多数任务的最低性能。

为便于理解，这里将下表中的后五类翻译为：入门、普通、专家、大师和超人级别。

比如，在大多数认知任务中，有能力的AGI必须至少达到熟练成年人的平均水平，但在任务子集上可能具有专家、大师甚至超人的表现。

举个例子，截至2023年9月撰写本文时，前沿语言模型（例如，ChatGPT、Bard、Llama2等）在某些任务（例如，短文写作、简单编码）中表现出「普通」的性能水平，但对于大多数任务（例如，数学能力，涉及事实性的任务）来说，仅表现出「入门」的性能水平。

因此，总体而言，当前的前沿语言模型将被视为1级通用AI，当更广泛的任务的性能水平提高时，就可以达到2级通用AI的门槛。

另外需要注意的是，在特定认知领域获得更强技能的顺序可能会对人工智能安全产生严重影响。

例如，在获得强大的道德推理技能之前获得强大的化学工程知识可能是一个危险的组合。

虽然该分类法根据系统的性能对系统进行评级，但能够达到一定性能水平的系统在部署时可能不匹配此级别。

以DALL·E 2为例，因为DALL·E 2产生的图像质量比大多数人能够绘制的更好，所以可以评估为「专家」级别的性能。然而该系统存在故障模式，使其无法获得「大师」的称号。所以可以将其估计为分类法中的3级窄AI（「专家级窄AI」）。

在上面的表格中，作者引入了一个矩阵式调平系统，该系统侧重于性能和通用性，这是AGI的两个核心维度。

就综合性能和通用性而言，矩阵中的最高级别是ASI（人工超级智能）。而「超人」的表现意味着100% 优于人类。

例如，这里假设AlphaFold是5级窄AI （「超人级窄AI」），因为它执行的单项任务（从氨基酸序列预测蛋白质的3D结构）高于世界顶级科学家的水平。

该定义意味着5级通用AI （ASI）系统将能够以人类无法比拟的水平完成广泛的任务。

AGI测试

在作者的方案中，人工智能系统必须掌握多大比例的此类任务才能达到给定的通用性水平？是否有一些任务（如元认知任务）必须始终执行才能达到某些通用性级别的标准？

要实现AGI定义的可操作性，就必须回答这些问题，并开发出具体的多样化和具有挑战性的任务。

鉴于这一过程的巨大复杂性，以及纳入广泛视角（包括跨组织和多学科观点）的重要性，作者在本文中并未提出一个基准。

相反，作者致力于澄清基准应尝试衡量的本体。作者还讨论了AGI基准应具备的属性。

AGI基准将包括一套广泛的认知和元认知任务（根据原则3），测量包括（但不限于）语言智能、数学和逻辑推理、空间推理、人际和人内社交智能、学习新技能的能力和创造力在内的各种特性。

基准可能包括心理学、神经科学、认知科学和教育学中的智能理论所提出的心理测量类别测试。

但是，必须首先评估这些「传统」测试是否适合用于计算系统基准测试，因为在这种情况下，许多测试可能缺乏生态和构造有效性。

基准性能的一个未决问题是，是否允许使用工具（包括可能由人工智能驱动的工具）作为人类性能的辅助工具。

这一选择最终可能取决于任务，并应在基准选择中考虑生态有效性（原则5）。

例如，在确定自动驾驶汽车是否足够安全时，与一个没有任何现代人工智能辅助安全工具的人进行比较，并不是最有参考价值的比较。

因为相关的反事实涉及到一些驾驶辅助技术，作者可能更倾向于与该基线进行比较。

或交互式任务，这些任务可能需要定性评估。作者猜测，后几类复杂的开放式任务虽然难以确定基准，但其生态有效性将优于传统的人工智能指标，或优于经过调整的传统人类智能指标。

AGI所能完成的全部任务是不可能一一列举的。因此，人工智能基准应该是一个活的基准。因此，这种基准应包括一个生成和确定新任务的框架。

要确定某物在特定水平上不是一个AGI，只需找出人们通常可以完成但系统无法充分执行的5项任务即可。

在特定性能级别（「雏形」、「普通」等）上通过大部分设想的AGI基准测试的系统，包括测试人员添加的新任务，可以被假定为具有相关的通用性级别（即，尽管在理论上AGI仍有可能无法通过测试，但在某些时候，未通过测试的情况会变得非常专业或非典型，以至于实际上无关紧要）。

制定AGI基准将是一个具有挑战性的迭代过程。尽管如此，它仍是人工智能研究领域的一个北斗星级别的目标。

对复杂概念的衡量可能并不完美，但衡量的行为有助于我们清晰地定义目标，并提供一个衡量进展的指标。

关于AGI风险的讨论

关于人工智能的讨论通常包括对风险的讨论。

采用分层的方法来定义人工智能，可以更细致地讨论性能和通用性的不同组合如何与不同类型的人工智能风险相关联。

当我们沿着人工智能的能力水平前进时，会引入新的风险，包括误用风险、调整风险和结构风险。

例如，「专家级人工智能」水平很可能涉及与经济混乱和工作岗位转移相关的结构性风险，因为越来越多的行业达到了机器智能替代人类劳动力的门槛。另一方面，达到「专家级AGI 」可能会减轻「AGI雏形」和「普通级AGI 」带来的一些风险，如任务执行错误的风险。

在「大师级人工智能」和「专家级人工智能」级别中，最有可能出现许多与x风险有关的问题（例如，人工智能可以在各种任务中超越人类操作员，但可能会欺骗人类操作员以实现错误的目标，如错误对齐思想实验）。

如果不同级别之间的进展速度超过了监管或外交的速度（例如，第一个实现人工智能的国家可能会拥有巨大的地缘政治/军事优势，从而产生复杂的结构性风险），那么国际关系不稳定等系统性风险可能会成为一个令人担忧的问题。

「专家型人工智能」（如「新兴人工智能」、「胜任型人工智能」和所有「狭义」人工智能类别），风险可能更多来自人类行为（如人工智能误用风险，无论是意外、偶然还是恶意）。

对与每个级别相关的风险概况进行更全面的分析，是制定AGI分类法的关键一步，可以为安全/伦理研究和政策制定提供指导。

能力和自主性

虽然能力为人工智能风险提供了先决条件，但人工智能系统（包括AGI系统）不会也不会在真空中运行。

相反，人工智能系统是与特定界面一起部署的，用于在特定场景中完成特定任务。

这些背景属性（界面、任务、场景、最终用户）对风险状况有重大影响。AGI能力本身并不能决定风险方面的命运，而必须与背景细节结合起来考虑。

例如，考虑AGI系统用户界面的承受能力。能力的不断提高会释放出新的交互范式，但并不能决定这些范式。

相反，系统设计者和终端用户将确定一种人与人工智能的交互模式，这种模式将平衡包括安全性在内的各种考虑因素。作者建议用表2中描述的六个自主水平来描述人机交互范式。

这些自主水平与AGI水平相关。更高水平的自主性可通过AGI能力的提升而「解锁」。

围绕人与人工智能的互动做出深思熟虑的选择，对于安全、负责任地部署前沿人工智能模型至关重要。

要使特定的交互范式变得理想，可能需要某些方面的通用性。

例如，只有当人工智能系统在某些元认知能力（学会何时向人类寻求帮助、心智理论建模、社会情感技能）方面也表现出很强的性能时，自主性等级3、4和5（「合作者」、「专家」和「智能体」）才可能发挥良好的作用。

作者对第五级自主性（「作为智能体的人工智能」）的定义中隐含的意思是，这种完全自主的人工智能可以在没有人类持续监督的情况下以一致的方式行动，但也知道何时向人类咨询。

通过更好的任务规范、弥合流程鸿沟和产出评估来支持人类与人工智能协调的界面，是确保人机交互领域跟上与人工智能系统互动的挑战和机遇的重要研究领域。

作为风险评估框架的人机交互范式

上表2说明了AGI级别、自主级别和风险之间的相互作用。

模型性能和通用性的进步提供了更多的交互范式选择（包括潜在的完全自主的人工智能）。

这些交互范式反过来又引入了新的风险类别。

与单独考虑模型能力相比，模型能力和交互设计的相互作用将使风险评估和负责任的部署决策更加细致入微。

表2还提供了作者提出的六个自主级别中每个级别的具体示例。

对于每个自主水平，作者都指出了「解锁」该交互范式的相应性能和通用性水平（即该范式有可能或有可能成功部署和采用的AGI水平）。

作者对「解锁」水平的预测往往要求狭义人工智能系统的性能水平高于通用人工智能系统。

例如，作者认为，无论是专家级狭义人工智能还是新兴人工智能，都有可能将人工智能用作顾问。

这种差异反映了这样一个事实，即对于通用系统来说，能力发展很可能是不均衡的。

例如，一级通用人工智能（「AGI雏形」）很可能在某些子任务集上达到二级甚至三级性能。

通用人工智能能力的这种不均衡性可能会使其在执行与其特定优势相符的特定任务时获得更高的自主水平。

在人类使用的背景下考虑 AGI 系统，可以让我们思考模型的进步与人类-AI 交互范式的进步之间的相互作用。

模型的进步与人与人工智能交互范式的进步之间的相互作用。模型研究的作用可以看作是帮助系统的能力沿着通往AGI的道路不断进步，提高其性能和通用性。

这样，人工智能系统的能力将与人类能力的重叠部分越来越大。相反，人与人工智能交互研究的作用可以被视为确保新的人工智能系统能够为人类所用并对人类有用，从而使人工智能系统成功地扩展人类的能力。

参考资料：https://huggingface./papers/2311.02462