通往AGI之路：基于性能与通用性的等级划分框架深度解析

引言

人工通用智能（Artificial General Intelligence，简称AGI）是人工智能研究领域最具深远意义的概念之一，它描述了一种能够在大多数任务上达到或超越人类能力水平的AI系统。随着机器学习模型的快速发展，AGI的概念已经从哲学辩论的议题转变为具有近期实践相关性的研究主题。部分专家认为，最新一代大语言模型中已经出现了AGI的"火花"；一些预测认为AI将在大约十年内广泛超越人类；甚至有人断言当前的大语言模型已经是AGI。

然而，AGI概念的模糊性和缺乏统一的操作化定义，给研究进展的评估、风险的识别以及政策的制定带来了显著挑战。2024年，Google DeepMind研究团队在ICML会议上发表了题为《Levels of AGI: Operationalizing Progress on the Path to AGI》的重要论文，该论文由Meredith Ringel Morris、Jascha Sohl-Dickstein、Noah Fiedel、Tris Wartkentin、Allan Dafoe、Aleksandra Faust、Clement Farbare和Shane Legg等研究者共同完成。这篇论文提出了一个系统性的AGI分类框架，引入了基于性能深度和能力广度的等级划分体系，为AGI研究提供了统一的讨论语言和评估标准。

本文将深入解读这篇开创性论文，系统分析其提出的AGI定义原则、等级划分框架、基准测试要求以及风险与自主性的关联分析，并结合相关学术文献，探讨该框架对AGI研究和人工智能安全领域的理论贡献与实践意义。

1 AGI概念的历史演变与定义困境

1.1 从图灵测试到现代AGI定义

AGI概念的演变历程可以追溯到人工智能研究的早期阶段。1950年，艾伦·图灵提出了著名的"图灵测试"，这或许是尝试操作化AGI类概念最广为人知的努力。图灵的"模仿游戏"试图操作化机器是否能够思考的问题，要求人类通过交互来区分文本是由另一人类还是机器产生的。然而，这个测试作为最初构想的思维实验，存在诸多批评；在实践中，该测试往往突出了欺骗人们的容易程度，而非机器的"智能"。鉴于现代大语言模型已经能够通过某些形式的图灵测试，这一标准显然不足以操作化或基准化AGI。正如图灵所认识到的，机器是否能够思考是一个有趣的哲学和科学问题，但似乎与机器能够做什么的问题正交；后者更容易测量，对于评估影响也更为重要。

哲学家约翰·塞尔提出了"强人工智能"的概念，他认为"根据强人工智能的观点，计算机不仅仅是研究心智的工具；相反，经过适当编程的计算机确实就是心智，从某种意义上说，经过正确编程的计算机可以被说成是真正理解并具有其他认知状态"。虽然强人工智能可能是实现AGI的一条路径，但在确定机器是否具有强人工智能属性（如意识）的方法上，科学界尚未达成共识，这使得这种面向过程的框架难以实际操作。

1997年，Mark Gubrud在关于军事技术的文章中首次使用了"人工通用智能"这一术语，将AGI定义为"在复杂性和速度上与人类大脑相当或超越人类大脑的AI系统，能够获取、操作和推理一般知识，并且能够在本质上任何工业或军事操作阶段使用，而这些阶段原本需要人类智能"。这一定义强调了与人类大脑复杂性相当的过程，而不仅仅是能力。虽然现代机器学习系统底层的神经网络架构受到人类大脑的松散启发，但基于Transformer架构的成功表明，严格基于大脑的过程和基准并非AGI的固有要求。

1.2 认知任务与学习能力视角

Legg和Goertzel在2001年将AGI这一术语在计算机科学家中普及开来，将AGI描述为"能够完成人们通常能够完成的认知任务的机器"。这一定义显著地聚焦于非物理任务，即不要求机器人具身化作为AGI的前提。然而，像许多AGI定义一样，这一框架在"什么任务"和"哪些人"等选择上存在模糊性。

在《技术奇点》一书中，Shanahan提出AGI是"不专门用于执行特定任务，而是能够学习执行人类能够执行的广泛任务范围的人工智能"。这一定义的一个重要特性是将元认知能力（学习）作为AGI的要求。这种对学习能力的强调反映了通用智能的核心特征：适应性。一个真正通用的智能系统必须能够应对训练时未曾遇到的新情况和新任务，这要求系统具备学习和适应的能力，而不仅仅是执行预编程的技能。

Marcus将AGI定义为"任何智能（可能有很多种）的简写，这种智能具有与人类智能相当或超越人类智能的灵活性、通用性、资源fulness和可靠性"。这一定义同时捕捉了通用性和性能（通过包含可靠性）；对"灵活性"的提及值得注意，因为像Shanahan的表述一样，这暗示了元认知能力（如学习新技能的能力）是使AI系统足够通用的必要条件。此外，Marcus提出了五项任务来衡量成功：理解电影、理解小说、在任意厨房做饭、编写无错误的10000行程序、将自然语言数学证明转换为符号形式。虽然这一定义附带了基准测试很有价值，但需要更多工作才能使这一基准测试变得全面。

1.3 经济价值与能力评估视角

OpenAI的章程将AGI定义为"在大多数经济上有价值的工作中超越人类的高度自主系统"。这一定义在"能力而非过程"标准方面具有优势，因为它关注与底层机制无关的性能；此外，这一定义提供了潜在的衡量标准，即经济价值。然而，这一定义的一个缺陷是它没有捕捉到可能构成"通用智能"的所有标准。有些与智能相关的任务可能没有明确的经济价值，例如艺术创造力或情感智力。这些属性可能在经济指标中间接体现，但经济价值是否捕捉到"智能"的全部范围仍不清楚。另一个挑战是，将AGI框架化为达到一定水平的劳动替代需要现实世界的部署，而关注能力可能只需要AGI执行任务的潜力。

Suleyman提出了"人工能力智能（Artificial Capable Intelligence，简称ACI）"的概念，指具有足够性能和通用性以在开放世界中完成复杂、多步骤任务的AI系统。具体而言，Suleyman提出了一个基于经济的ACI技能定义，他称之为"现代图灵测试"，其中AI将被给予10万美元资本，并被要求在几个月内将其转化为100万美元。这一框架比OpenAI的经济有价值工作定义更窄，并且有仅针对财务利润的潜在对齐风险。然而，Suleyman概念的优势在于关注执行人类重视的复杂、多步骤任务。比赚钱更广泛地理解，ACI对复杂、现实世界任务的强调值得注意，因为这类任务可能比许多当前AI基准测试具有更高的生态效度。

2 AGI定义的六大核心原则

基于对现有AGI定义的深入分析，研究团队识别出了有助于形成清晰、可操作AGI定义的属性和共性，提出了任何AGI定义都应该满足的六大核心原则。这些原则为后续的等级划分框架奠定了理论基础。

2.1 聚焦能力而非过程

大多数定义聚焦于AGI能够完成什么，而非其完成任务所采用的机制。这对于识别不一定是实现AGI先决条件的特征（但可能仍然是有趣的研究主题）非常重要。这种对能力的聚焦意味着AGI系统不需要以类人方式思考或理解；同样，系统具有意识或感知等品质也不是AGI的必要前提，因为这些品质具有过程导向的焦点。这一原则的提出具有重要的理论和实践意义。从理论角度看，它将AGI的定义从实现细节中解放出来，使得不同的技术路径都可以被公平地评估。从实践角度看，它简化了AGI的识别和评估过程，因为我们不需要探究系统的内部工作机制，只需要观察其外部表现。

这一原则与功能主义哲学观点相呼应，即心智的本质在于其功能而非其物质基础。在人工智能领域，这一观点意味着我们不应该要求AGI必须以特定的方式"思考"，而应该关注它能够做什么。这也意味着，如果一个系统能够在广泛的任务上表现出智能行为，那么无论它是通过神经网络、符号推理还是其他机制实现的，都应该被视为具有相应的智能水平。

2.2 聚焦通用性与性能

所有上述定义都在不同程度上强调通用性，但有些排除了性能标准。研究团队认为，通用性和性能都是AGI的关键组成部分。通用性指的是系统能够处理的任务范围，而性能指的是系统在这些任务上的表现水平。一个真正的AGI应该既能够处理广泛的任务，又能够在这些任务上达到足够高的性能水平。仅有通用性而性能不足的系统，或者仅在狭窄领域内高性能的系统，都不能被称为AGI。

这一原则的提出解决了AGI定义中的一个核心张力：如何平衡广度和深度。一些定义过于强调通用性而忽视了性能，导致一些能够处理多种任务但表现不佳的系统被过度评价。另一些定义则过于强调特定任务上的高性能，忽视了通用性的重要性。通过同时考虑这两个维度，研究团队为AGI提供了一个更加全面和平衡的定义框架。

2.3 聚焦认知与元认知任务

是否要求机器人具身化作为AGI的标准是一个有争议的问题。大多数定义聚焦于认知任务，即非物理任务。尽管机器人技术最近取得了进展，但AI系统的物理能力似乎落后于非物理能力。研究团队建议，执行物理任务的能力增加了系统的通用性，但不应被视为实现AGI的必要前提。另一方面，元认知能力（如学习新任务的能力、知道何时向人类寻求澄清或帮助的能力）是系统实现通用性的关键前提。

元认知能力在AGI框架中的重要性不容忽视。学习新技能的能力对于通用性至关重要，因为系统不可能预先针对所有可能的用例进行优化；这需要相关的子技能，如选择适当学习策略的能力。知道何时寻求帮助对于支持对齐和适当的人机交互是必要的，这包括对模型自身能力限制的意识，这与模型校准的子技能相关，即模型主动预期和回溯评估其在某些任务上的表现如何的能力。此外，心智理论任务有时被认为是元认知的，有时被单独归类为社会认知；系统准确建模终端用户的能力是AGI系统对齐的必要组成部分。

2.4 聚焦潜力而非部署

证明系统能够以给定性能水平执行必要任务集应该足以声明该系统为AGI；在开放世界中部署此类系统不应成为AGI定义的固有部分。例如，将AGI定义为达到一定水平的劳动替代需要现实世界的部署，而将AGI定义为具有替代劳动的能力则聚焦于潜力。要求部署作为测量AGI的条件引入了非技术障碍，如法律和社会考虑，以及伦理和安全关切。

这一原则具有重要的政策含义。如果AGI的定义要求实际部署，那么监管机构可能需要等到系统被广泛部署后才能采取行动，这可能为时已晚。通过聚焦于潜力，研究团队为前瞻性的监管和政策制定提供了空间。这也意味着，一个在实验室环境中已经证明能够执行广泛任务的高性能系统，即使由于安全或其他考虑尚未公开部署，也应该被承认为相应级别的AGI。

2.5 聚焦生态效度

可用于基准化AGI进展的任务对于操作化任何提议的定义至关重要。研究团队强调选择与人们重视的现实世界任务（即具有生态效度的任务）保持一致的重要性。这里的"价值"应广义理解，不仅包括经济价值，还包括社会价值、艺术价值等。这可能意味着放弃那些容易自动化或量化但可能无法捕捉人们在AGI中重视的技能的传统AI指标。

生态效度的概念来自心理学研究，指的是实验室研究结果能够推广到现实世界条件的程度。在AGI基准测试的背景下，这意味着测试任务应该反映AGI在实际应用中需要解决的真实问题。许多传统的AI基准测试，如特定的游戏或标准化的测试，可能无法充分捕捉AGI需要具备的真实世界能力。例如，一个AI系统可能在标准化考试中得分很高，但在处理复杂的现实世界问题时表现不佳。因此，开发具有高生态效度的基准测试是AGI研究的重要挑战。

2.6 聚焦通往AGI的路径而非单一终点

正如采用标准的自动驾驶等级使得关于自动驾驶的政策和进展讨论变得清晰一样，研究团队认为定义"AGI等级"是有价值的。每个AGI等级应该与一套清晰的指标/基准测试相关联，以及在每个等级引入的已识别风险，以及由此导致的人机交互范式的变化。这种基于等级的AGI定义方法支持了许多著名表述的共存，例如，Aguera y Arcas和Norvig的定义将落入该本体论中的"新兴AGI"类别，而OpenAI的劳动替代阈值更好地匹配"卓越AGI"。

这一原则的提出反映了AGI研究的渐进性质。AGI不是一个突然实现的单一目标，而是一个渐进的发展过程。通过定义不同的等级，研究团队为追踪这一进展提供了工具。这也使得政策制定者和公众能够更好地理解和准备AGI带来的变化，而不是等待一个突然的"奇点"时刻。每个等级都有其特定的风险和挑战，需要相应的准备和应对措施。

3 AGI等级划分框架的核心架构

2.1 性能与通用性的二维矩阵

遵循原则2（聚焦通用性和性能）和原则6（聚焦通往AGI的路径而非单一终点），研究团队引入了一个矩阵化的等级系统，聚焦于性能和通用性作为AGI核心的两个维度。这一框架为AGI的分类和评估提供了系统性的方法论基础。

性能指的是AI系统能力的深度，即对于给定任务，它与人类水平表现的比较。注意，对于"新兴"以上的所有性能等级，百分位数是参考具有相关技能的成年人样本计算的。例如，"胜任"或更高水平的英语写作能力任务表现，只会针对识字且流利使用英语的成年人集合进行测量。

通用性指的是AI系统能力的广度，即AI系统达到目标性能阈值的任务范围。这一分类法指定了在大多数任务上达到给定评级所需的最低性能。例如，胜任AGI必须在大多数认知任务上具有至少达到熟练成年人第50百分位数的性能，但可能在某些任务子集上具有专家、卓越甚至超人性能。

表1：AGI等级划分矩阵框架

性能等级	窄AI（Narrow AI）	通用AI（General AI）
Level 0：无AI	窄非AI：计算器软件、编译器	通用非AI：人工计算服务，如Amazon Mechanical Turk
Level 1：新兴	新兴窄AI：等于或略好于无技能人类；GOFAI系统，如SHRDLU	新兴AGI：ChatGPT、Bard、Llama 2、Gemini
Level 2：胜任	胜任窄AI：达到熟练成年人第50百分位数；毒性检测器、智能音箱、Watson	胜任AGI：尚未实现
Level 3：专家	专家窄AI：达到熟练成年人第90百分位数；拼写和语法检查器、图像生成模型	专家AGI：尚未实现
Level 4：卓越	卓越窄AI：达到熟练成年人第99百分位数；Deep Blue、AlphaGo	卓越AGI：尚未实现
Level 5：超人	超人窄AI：超越100%人类；AlphaFold、AlphaZero、Stockfish	人工超级智能（ASI）：尚未实现

2.2 性能等级的详细定义

研究团队定义了五个递进的性能等级，每个等级都有明确的量化标准和定性描述。这些等级为评估AI系统的能力提供了精确的度量标准。

Level 1（新兴）指的是等于或略好于无技能人类的表现。这一等级代表了AI能力的起点，系统开始展现出处理特定任务的能力，但尚未达到专业水平。在这一阶段，AI系统可能能够完成一些基本任务，但在复杂性和可靠性方面仍有很大提升空间。当前的大语言模型在许多任务上处于这一水平，能够生成连贯的文本、回答基本问题，但在需要深度推理或专业知识的任务上表现不稳定。

Level 2（胜任）指的是至少达到熟练成年人第50百分位数的表现。这是AGI的一个重要里程碑，意味着系统在大多数认知任务上能够达到中等技能人类的表现水平。研究团队指出，"胜任AGI"等级可能是许多现有AGI定义的最佳概括，包括Legg、Shanahan和Suleyman等人的表述。达到这一等级的系统将能够在广泛的任务中作为人类的可靠助手，可能引发快速的社会变革。

Level 3（专家）指的是至少达到熟练成年人第90百分位数的表现。在这一等级，AI系统在大多数认知任务上能够超越90%的熟练人类，展现出专家级的能力。这意味着系统不仅能够执行任务，还能够以高质量和专业水平完成任务。专家级AI的出现将对专业服务行业产生深远影响，可能改变知识工作的性质。

Level 4（卓越）指的是至少达到熟练成年人第99百分位数的表现。这一等级代表了人类专家中的顶尖水平，AI系统能够在几乎所有认知任务上超越99%的熟练人类。达到这一等级的系统将在几乎所有领域展现出超越绝大多数人类专家的能力。Deep Blue和AlphaGo等系统在各自领域达到了这一水平，但它们是窄AI，仅在特定任务上表现出色。

Level 5（超人）指的是超越100%人类的表现。这一定义意味着Level 5通用AI（ASI）系统将能够以没有任何人类能够匹敌的水平执行广泛的任务。此外，这一框架也暗示，超人系统可能能够执行比低等级AGI更广泛的通用性任务，因为执行与现有人类技能定性不同的任务的能力，根据定义将超越所有人类。例如，ASI可能具有神经接口能力（可能通过分析大脑信号来解码思想的机制）、预言能力（可能通过分析大量数据来做出高质量预测的机制），或与动物交流的能力（可能通过分析其发声、脑电波或肢体语言中的模式）。

2.3 通用性维度的划分

通用性维度将AI系统分为窄AI和通用AI两大类别。窄AI指的是能够执行明确范围的任务或任务集的系统，而通用AI指的是能够执行广泛非物理任务的系统，包括学习新技能等元认知任务。

窄AI系统在特定任务或任务集上可能表现出极高的性能，但其能力范围有限。例如，Deep Blue是国际象棋领域的卓越窄AI，AlphaGo是围棋领域的卓越窄AI，AlphaFold是蛋白质结构预测领域的超人窄AI。这些系统在各自领域达到了超越人类专家的水平，但无法将其能力迁移到其他领域。

通用AI系统则需要具备更广泛的能力范围，包括处理各种认知任务的能力以及元认知能力。元认知能力是通用性的关键组成部分，因为系统不可能预先针对所有可能的用例进行优化，因此需要具备学习新技能的能力。此外，通用AI还需要具备知道何时寻求帮助的能力，这对于支持对齐和适当的人机交互至关重要。

2.4 当前AI系统的定位分析

研究团队对当前AI系统在框架中的定位进行了详细分析。截至2023年9月，前沿语言模型（如ChatGPT、Bard、Llama 2等）在某些任务上表现出"胜任"水平的性能，例如短文写作、简单编程，但在大多数任务上仍处于"新兴"性能水平，例如数学能力、涉及事实性的任务。因此，当前前沿语言模型应被视为Level 1通用AI（"新兴AGI"），直到更广泛任务集的性能水平提高（届时将满足Level 2通用AI，即"胜任AGI"的标准）。

研究团队建议，前沿AI模型的文档（如模型卡）应详细说明这种性能水平的混合情况。这将帮助终端用户、政策制定者和其他利益相关者形成对沿AGI路径进展的系统可能表现不均的共享、细致理解。特定认知领域更强技能的获取顺序可能对AI安全产生严重影响。例如，在获得强大的伦理推理技能之前获得强大的化学工程知识可能是一个危险的组合。还应注意，性能和/或通用性等级之间的进展速度可能是非线性的。获得学习新技能的能力可能特别加速向下一等级的进展。

3 AGI基准测试的设计原则与挑战

3.1 基准测试的核心要求

研究团队的六项AGI定义原则中，有两项（原则2：通用性和性能；原则6：聚焦通往AGI的路径）影响了矩阵化、等级化本体论的选择，以便于对AI能力的广度和深度进行细致讨论。其余四项原则（原则1：能力而非过程；原则3：认知和元认知任务；原则4：潜力而非部署；原则5：生态效度）与测量问题相关。

虽然性能维度规定了测量的一个方面（例如，相对于特定人群子集的任务表现百分位范围），但通用性维度留下了重要问题：构成通用性标准的任务集是什么？AI系统必须掌握这些任务中的多少比例才能达到该模式中给定的通用性等级？是否有某些任务必须始终执行才能满足某些通用性等级的标准，如元认知任务？

操作化AGI定义需要回答这些问题，以及开发具体的多样化和挑战性任务。由于这一过程的巨大复杂性，以及包括跨组织和多学科观点的重要性，研究团队没有在论文中提出基准测试，而是致力于阐明基准测试应尝试测量的本体论。研究团队还讨论了AGI基准测试应具备的属性。

3.2 认知与元认知任务的覆盖

研究团队的意图是，AGI基准测试将包括广泛的认知和元认知任务套件，测量包括但不限于语言智能、数学和逻辑推理、空间推理、人际和内省社会智能、学习新技能的能力以及创造力在内的多种属性。

基准测试可能包括涵盖心理学、神经科学、认知科学和教育学提出的智力类别的测试；然而，此类测试必须首先评估其是否适合基准化计算系统，因为许多可能在此背景下缺乏生态和结构效度。研究团队强调元认知的重要性，并建议AGI基准测试应包括元认知任务，如学习新技能的能力、知道何时寻求帮助的能力，以及与心智理论相关的社会元认知能力。

学习新技能的能力对于通用性至关重要，因为系统不可能预先针对所有可能的用例进行优化；这需要相关的子技能，如选择适当学习策略的能力。知道何时寻求帮助对于支持对齐和适当的人机交互是必要的，这包括对模型自身能力限制的意识，这与模型校准的子技能相关。心智理论任务有时被认为是元认知的，有时被单独归类为社会认知；系统准确建模终端用户的能力是AGI系统对齐的必要组成部分。

3.3 工具使用与基准测试设计

基准测试设计的一个开放问题是是否允许使用工具，包括可能的AI驱动工具，作为人类表现的辅助。这一选择最终可能取决于任务，并应在基准测试选择中考虑生态效度。例如，在确定自动驾驶汽车是否足够安全时，与没有任何现代AI辅助安全工具的驾驶员进行基准测试并不是最具信息量的比较；由于相关的反事实涉及某种驾驶员辅助技术，我们可能更倾向于与该基线进行比较。

虽然AGI基准测试可能借鉴一些现有的AI基准测试（如HELM、BIG-bench），研究团队还设想纳入可能需要定性评估的开放式和/或交互式任务。研究团队怀疑，后一类复杂、开放式的任务，虽然难以基准化，但将比传统AI指标或改编的传统人类智力测量具有更好的生态效度。

3.4 动态基准测试的必要性

不可能枚举足够通用的智能能够实现的任务全集。因此，AGI基准测试应该是一个动态基准测试。这样的基准测试应该包括生成和商定新任务的框架。确定某物在给定等级不是AGI，只需要识别人们通常能够完成但系统无法适当执行的任务。在给定性能等级通过大多数预想AGI基准测试（包括测试者添加的新任务）的系统，可以被认为具有该等级的通用性用于实际目的。

研究团队对于系统必须在给定性能等级通过AGI基准测试的任务数量或百分比才能被声明为该等级的通用AI持谨慎态度，没有给出具体数值。虽然研究团队认为这将是一个非常高的百分比，但可能不是100%，因为似乎清楚的是，广泛但不完美的通用性是有影响力的（个体人类在所有可能任务上也缺乏一致的表现，但通常被认为是智能的）。确定基准测试任务中证明通用性的部分比例仍然是一个开放的研究问题。

3.5 危险能力测试的争议

AGI基准测试是否应包括潜在危险能力的测试（如欺骗能力、说服能力或高级生物化学能力）是一个有争议的问题。研究团队倾向于在此类能力基准测试中包含这些能力，因为大多数此类技能往往是双用途的（具有社会积极场景以及恶意场景的应用）。

危险能力基准测试可以通过原则4（潜力而非部署）来降低风险，确保任何危险或双用途任务的基准测试在适当沙盒中进行，而不是以部署为定义。然而，在此类测试纳入公共基准测试可能允许恶意行为者优化这些能力；理解如何减轻与双用途能力基准测试相关的风险仍然是AI安全、AI伦理和AI治理专家的重要研究领域。

4 风险评估与等级框架的关联

4.1 基于等级的风险分析框架

AGI的讨论通常包括风险讨论，包括"存在性风险"或其他极端风险。等级化的AGI定义方法能够更细致地讨论不同性能和通用性组合如何与不同类型的AI风险相关。虽然考虑极端风险场景有价值，但通过提出的本体论而非单一终点理解AGI可以帮助确保政策制定者也识别和优先考虑近期和通往AGI路径上的风险。

随着能力等级向ASI推进，会引入新的风险，包括误用风险、对齐风险和结构性风险。例如，"专家AGI"等级可能涉及与经济破坏和工作替代相关的结构性风险，因为越来越多的行业达到机器智能替代人类劳动的替代阈值。另一方面，达到"专家AGI"可能缓解"新兴AGI"和"胜任AGI"引入的一些风险，如任务执行不正确的风险。"卓越AGI"和"ASI"等级是许多与存在性风险相关的担忧最可能出现的地方，例如，能够在广泛任务上超越人类操作员的AI可能会欺骗他们以实现错误指定的目标，如在对齐思想实验中那样。

表2：AGI等级与风险类型关联分析

AGI等级	主要风险类型	风险描述	潜在影响
新兴AGI	误用风险、任务执行错误	系统可能被恶意使用或产生不准确输出	有限但可见的社会影响
胜任AGI	经济破坏、技能退化	广泛劳动替代开始，人类技能可能退化	显著的社会经济变革
专家AGI	结构性风险、权力集中	行业替代加速，经济和政治权力可能集中	深远的结构性变化
卓越AGI	对齐风险、存在性风险	系统可能欺骗人类操作员，目标不一致	潜在的灾难性后果
ASI	存在性风险、控制问题	系统可能超越人类理解和控制能力	人类文明的根本性挑战

4.2 国际关系与系统性风险

系统性风险如国际关系的不稳定可能是一个关注点，如果等级之间的进展速度超过监管或外交（例如，第一个实现ASI的国家可能具有实质性的地缘政治/军事优势，造成复杂的结构性风险）。在"专家AGI"以下的等级（如"新兴AGI"、"胜任AGI"和所有"窄AI"类别），风险可能更多源于人类行为（如意外、附带或恶意的AI误用风险）。对每个等级相关的风险概况进行更完整的分析是开发能够指导安全/伦理研究和政策制定的AGI分类法的关键步骤。

4.3 Anthropic负责任扩展政策

与这项工作同时，Anthropic发布了其负责任扩展政策（RSP）1.0版。该政策使用基于等级的方法（受生物安全等级启发）来定义与AI系统相关的风险等级，识别每个AI安全等级（ASL）可能相关的危险能力，以及每个等级应采取的遏制或部署措施。当前最先进的生成AI被归类为ASL-2风险。在任何AGI基准测试中包含与ASL能力匹配的项目，将把AGI分类法中的点与特定风险和缓解措施联系起来。

5 自主性等级与人机交互范式

5.1 能力与自主性的区分

虽然能力为AI风险提供了前提条件，但AI系统（包括AGI系统）不会也不会在真空中运行。相反，AI系统以特定接口部署，用于在特定场景中实现特定任务。这些上下文属性（接口、任务、场景、终端用户）对风险有实质性影响。

考虑AGI系统用户界面的可供性。增加的能力解锁了新的交互范式，但并不决定它们。相反，系统设计者和终端用户将确定一种人机交互模式，平衡各种考虑因素，包括安全。研究团队提出用六个自主性等级来表征人机交互范式。

这些自主性等级与AGI等级相关。更高的自主性等级被AGI能力的进展"解锁"，但随着达到更高的AGI等级，较低的自主性等级对于特定任务和场景可能仍然是理想的。仔细考虑围绕人机交互的选择对于前沿AI模型的安全和负责任部署至关重要。

5.2 自主性等级的详细定义

研究团队定义了六个自主性等级，从完全人类控制到完全自主AI。每个等级都有其特定的交互模式、解锁条件和相关风险。

自主性等级0（无AI）指的是人类做所有事情。这包括模拟方法（如用铅笔在纸上素描）和非AI数字工作流程（如在文本编辑器中打字、在绘画程序中绘画）。这一等级代表了传统的工具使用模式，人类完全控制所有决策和行动。

自主性等级1（AI作为工具）指的是人类完全控制任务并使用AI自动化平凡的子任务。例如，借助搜索引擎进行信息搜索、借助语法检查程序修改写作、借助机器翻译应用阅读标志。这一等级的可能风险包括技能退化（如过度依赖）和既定行业的破坏。

自主性等级2（AI作为顾问）指的是AI承担实质性角色，但仅在人类调用时才参与。例如，依靠语言模型总结一组文档、使用代码生成模型加速计算机编程、通过复杂的推荐系统消费大多数娱乐内容。这一等级的可能风险包括过度信任、激进化、定向操纵。

自主性等级3（AI作为协作者）指的是平等的人机协作；目标和任务的交互协调。例如，通过与棋类AI的互动和分析作为棋手训练、通过AI生成的个性社交互动进行娱乐。这一等级的可能风险包括拟人化（如寄生社会关系）和快速社会变革。

自主性等级4（AI作为专家）指的是AI驱动交互；人类提供指导和反馈或执行子任务。例如，使用AI系统推进科学发现（如蛋白质折叠）。这一等级的可能风险包括社会规模的倦怠、大规模劳动替代、人类例外主义的衰落。

自主性等级5（AI作为代理）指的是完全自主的AI。例如，自主AI驱动的个人助理。这一等级的可能风险包括对齐问题、权力集中。

表3：自主性等级与AGI等级的关联分析

自主性等级	交互模式	解锁的AGI等级	示例系统	引入的风险
Level 0：无AI	人类做所有事情	无AI	铅笔素描、文本编辑器	无（现状风险）
Level 1：AI作为工具	人类控制，AI自动化子任务	新兴窄AI	搜索引擎、语法检查器	技能退化、行业破坏
Level 2：AI作为顾问	AI承担实质性角色，人类调用	胜任窄AI、新兴AGI	文档总结、代码生成	过度信任、激进化
Level 3：AI作为协作者	平等人机协作	新兴AGI、胜任窄AI	棋类训练AI	拟人化、社会变革
Level 4：AI作为专家	AI驱动，人类指导	卓越窄AI、专家AGI	科学发现AI	劳动替代、倦怠
Level 5：AI作为代理	完全自主AI	卓越AGI、ASI	自主个人助理	对齐问题、权力集中

5.3 人机交互与风险评估

研究团队提出的框架说明了AGI等级、自主性等级和风险之间的相互作用。模型性能和通用性的进步解锁了额外的交互范式选择（包括完全自主）。这些交互范式反过来引入了新的风险类别。模型能力和交互设计的相互作用将使更细致的风险评估和负责任的部署决策成为可能，而不仅仅是考虑模型能力。

研究团队对"解锁"等级的预测倾向于要求窄AI系统比通用AI系统具有更高的性能等级；例如，研究团队认为AI作为顾问的使用可能是专家窄AI或新兴AGI。这种差异反映了通用系统的能力发展可能是不均衡的事实；例如，Level 1通用AI（"新兴AGI"）可能在某些任务子集上具有Level 2甚至Level 3的性能。通用AI的这种能力不均匀性可能为其特定优势对齐的特定任务解锁更高的自主性等级。

5.4 "无AI"范式的重要性

研究团队强调"无AI"范式在许多情境中的重要性，包括教育、享受、评估或安全原因。例如，在自动驾驶领域，当Level 5自动驾驶技术广泛可用时，可能仍有理由使用Level 0（无自动化）车辆。这些包括指导新驾驶员（教育）、驾驶爱好者的乐趣（享受）、驾驶员执照考试（评估），或在传感器无法依赖的条件下，如技术故障或极端天气事件（安全）。

虽然Level 5自动驾驶车辆在研究团队的分类法中可能是Level 4或5窄AI，但关于人类与计算机自主性的相同考虑也适用于AGI。我们可能开发AGI，但选择不自主部署它，或根据上下文考虑在不同情况下以不同的自主性等级部署。

5.5 通用性与交互范式的关系

通用性的某些方面可能是使特定交互范式理想化的必要条件。例如，自主性等级3、4和5（"协作者"、"专家"和"代理"）可能只有在AI系统还在某些元认知能力上表现出强大性能时才能良好运行，如学习何时向人类寻求帮助、心智理论建模、社会情感技能。

研究团队对自主性等级5（"AI作为代理"）的定义暗示，这样的完全自主AI可以在没有持续人类监督的情况下以对齐方式行动，但知道何时咨询人类。支持通过更好的任务规范、过程鸿沟弥合和输出评估来实现人机对齐的界面是一个重要的研究领域。

6 研究贡献与理论意义

6.1 统一的AGI讨论语言

研究团队提出的AGI等级框架为AI研究社区提供了一个统一的讨论语言。在此之前，AGI的定义和讨论往往缺乏共同的基础，导致不同研究者、政策制定者和公众之间的沟通障碍。通过提供明确的等级划分和量化标准，该框架使得关于AGI进展的讨论能够更加精确和有意义。

这一框架的价值类似于SAE国际组织制定的自动驾驶等级标准。在自动驾驶等级标准被广泛采用之前，关于自动驾驶的讨论往往模糊不清，难以准确描述系统的能力和限制。同样，AGI等级框架为描述和比较不同AI系统的能力提供了共同的语言和标准。

6.2 渐进式风险评估方法

传统的AGI讨论往往聚焦于"奇点"或"存在性风险"等极端场景，而忽视了通往AGI路径上的渐进风险。研究团队的框架通过等级划分，使得每个阶段的风险都能够被识别和评估。这种渐进式的风险评估方法对于政策制定和风险管理具有重要意义。

例如，"胜任AGI"等级可能带来的经济破坏和工作替代风险，虽然不如存在性风险那样极端，但对社会的影响可能更为直接和广泛。通过识别每个等级的特定风险，政策制定者可以更有针对性地制定应对措施，而不是仅仅关注遥远的极端风险。

6.3 能力与自主性的解耦

研究团队的一个重要贡献是将AI能力与自主性解耦。这一区分对于理解和应对AGI风险至关重要。一个具有高水平能力的AI系统并不意味着必须以高自主性方式部署。系统设计者和政策制定者可以根据具体情境选择适当的自主性等级，即使底层系统具有更高的能力。

这一观点与Shneiderman的观察一致，即自动化不是零和游戏，高水平的自动化可以与高水平的人类控制共存。研究团队的框架考虑了通过人机伙伴关系不同风格的视角来看待自动化，而不是简单地追求最大程度的自动化。

6.4 对AI安全研究的指导意义

研究团队的框架对AI安全研究具有重要的指导意义。通过明确每个AGI等级的能力要求和相关风险，该框架为AI安全研究提供了清晰的路线图。研究者可以针对特定等级的风险开发相应的安全措施，而不是泛泛地讨论AI安全问题。

此外，框架中对元认知能力的强调为AI安全研究指明了重要方向。学习新技能的能力、知道何时寻求帮助的能力、心智理论能力等元认知能力，不仅是AGI的重要组成部分，也是确保AGI系统安全和对齐的关键因素。

7 局限性与未来研究方向

7.1 基准测试的具体实现

研究团队在论文中没有提出具体的AGI基准测试，而是聚焦于阐明基准测试应尝试测量的本体论。这是一个明智的选择，因为开发具有高生态效度的AGI基准测试需要跨组织和多学科的广泛合作。然而，这也意味着框架的实际应用仍有待具体基准测试的开发和验证。

未来的研究需要解决几个关键问题：如何定义构成通用性标准的任务集？系统需要在这些任务上达到什么比例才能被认为具有给定等级的通用性？如何确保基准测试的生态效度？如何处理基准测试可能被"游戏化"的问题？

7.2 性能评估的复杂性

研究团队的框架假设性能可以相对于人类表现进行量化评估。然而，实际操作中，性能评估面临诸多复杂性。不同任务可能需要不同的评估方法，某些任务（如创造力、情感智力）的评估本身就具有主观性。此外，系统在不同任务上的性能可能不均匀，如何综合评估这种不均匀的性能也是一个挑战。

研究团队提到，当前前沿语言模型在某些任务上表现出"胜任"水平的性能，但在大多数任务上仍处于"新兴"水平。如何将这种不均匀的性能映射到等级框架中，需要更详细的指导原则。

7.3 动态性与适应性

AGI基准测试应该是动态的，能够适应技术的发展和新任务的出现。然而，动态基准测试也带来了挑战：如何确保不同时间点的评估结果具有可比性？如何防止基准测试被特定系统或方法"过拟合"？如何平衡基准测试的稳定性和适应性？

此外，随着AI技术的快速发展，某些任务可能变得不再具有区分度。例如，如果所有前沿AI系统都能在特定任务上达到超人水平，该任务就不再能够区分不同等级的系统。基准测试需要不断更新以保持其区分能力。

7.4 跨文化与跨领域适用性

研究团队的框架主要基于西方学术界对智能的理解，可能需要调整以适应不同文化和领域的视角。例如，不同文化对"智能"的定义可能有所不同，某些任务在某些文化背景下可能被认为更重要或更不重要。

此外，框架主要聚焦于认知任务，对物理任务的处理相对有限。虽然研究团队认为物理能力不应是AGI的必要前提，但随着机器人技术的发展，物理能力可能成为AI系统通用性的重要组成部分。未来的研究可能需要更深入地考虑物理能力在AGI框架中的位置。

8 结论与展望

8.1 核心贡献总结

Google DeepMind研究团队提出的AGI等级框架是AGI研究领域的重要贡献。通过系统分析现有AGI定义的优势和局限，研究团队提出了AGI定义应满足的六大原则：聚焦能力而非过程、聚焦通用性和性能、聚焦认知和元认知任务、聚焦潜力而非部署、聚焦生态效度、聚焦通往AGI的路径而非单一终点。

基于这些原则，研究团队引入了AGI等级本体论，通过考虑通用性（窄或通用）与五个性能等级（新兴、胜任、专家、卓越和超人）的结合，提供了定义通往AGI进展的更细致方法。研究团队反思了当前AI系统和AGI定义如何适应这一框架，讨论了该框架对开发生态效度AGI基准测试的意义，并论证了虽然这一努力肯定具有挑战性，但参与其中至关重要。

最后，研究团队考虑了其原则和本体论如何重塑围绕AGI相关风险的讨论。值得注意的是，研究团队观察到AGI不一定等同于自主性。研究团队引入了由AGI等级进展解锁但非决定的自主性等级，并说明了将AGI等级与自主性等级联合考虑如何能够提供对AI系统相关风险的更细致洞察，强调了在人机交互研究中与模型改进同步投资的重要性。

8.2 对研究社区的影响

研究团队的框架有望对AI研究社区产生深远影响。首先，它为AGI研究提供了统一的讨论语言，使得不同研究者之间的沟通更加精确和有效。其次，它为AGI进展的评估提供了明确的标准，使得研究进展能够被客观地追踪和比较。第三，它为AI安全研究提供了清晰的路线图，使得安全措施能够针对特定等级的风险进行开发。

研究团队希望其框架将被证明是可适应和可扩展的。例如，如何定义和测量通往AGI的进展可能随着技术进步而改变，如可解释性的改进提供对模型内部工作的洞察。此外，本体论的某些部分，如人机交互范式和相关风险，可能随着社会本身适应AI进步而演变。

8.3 对政策制定的启示

研究团队的框架对AI政策制定具有重要的启示意义。通过提供明确的AGI等级划分，该框架使得政策制定者能够更有针对性地制定监管措施。不同等级的AGI可能需要不同的监管方法，而不是一刀切的政策。

此外，框架中对自主性等级的区分也为政策制定提供了重要视角。政策制定者可以考虑限制特定情境下的自主性等级，即使底层AI系统具有更高的能力。这种方法可以在利用AI能力的同时，降低相关风险。

8.4 未来研究展望

AGI研究仍处于早期阶段，许多问题有待解决。未来的研究需要在以下几个方向继续努力：开发具有高生态效度的AGI基准测试；研究如何评估和处理不均匀的性能分布；探索动态基准测试的设计和实施；考虑跨文化和跨领域的适用性；深入研究元认知能力在AGI中的作用；开发针对每个AGI等级风险的安全措施。

研究团队的框架为这些研究方向提供了清晰的理论基础和方法论指导。随着AI技术的快速发展，AGI研究将变得越来越重要。研究团队的框架为这一领域的研究者、政策制定者和公众提供了共同的语言和工具，有助于推动AGI研究朝着安全、负责任的方向发展。

参考文献

1\] Morris M R, Sohl-Dickstein J, Fiedel N, et al. Levels of AGI: Operationalizing Progress on the Path to AGI\[C\]//Proceedings of the 41st International Conference on Machine Learning. PMLR, 2024: 5202-5218. \[2\] Turing A. Computing Machinery and Intelligence\[J\]. Mind, 1950, LIX: 433-460. \[3\] Searle J R. Minds, Brains, and Programs\[J\]. Behavioral and Brain Sciences, 1980, 3: 417-424. \[4\] Gubrud M. Nanotechnology and International Security\[C\]//Fifth Foresight Conference on Molecular Nanotechnology. November 1997. \[5\] Legg S. Machine Super Intelligence\[D\]. Doctoral Dissertation submitted to the Faculty of Informatics of the University of Lugano, June 2008. \[6\] Goertzel B. Artificial General Intelligence: Concept, State of the Art, and Future Prospects\[J\]. Journal of Artificial General Intelligence, 2014. \[7\] Shanahan M. The Technological Singularity\[M\]. MIT Press, August 2015. \[8\] Marcus G. Dear Elon Musk, here are five things you might want to consider about AGI\[J\]. "Marcus on AI" Substack, May 2022. \[9\] OpenAI. OpenAI Charter\[R\]. 2018. \[10\] Mustafa Suleyman and Michael Bhaskar. The Coming Wave: Technology, Power, and the 21st Century's Greatest Dilemma\[M\]. Crown, September 2023. \[11\] Wei J, Tay Y, Bommasani R, et al. Emergent Abilities of Large Language Models\[J\]. arXiv preprint arXiv:2206.07682, 2022. \[12\] Bengio Y, Hinton G, Yao A, et al. Managing AI Risks in an Era of Rapid Progress\[J\]. arXiv preprint arXiv:2310.17688, 2023. \[13\] Bubeck S, Chandrasekaran V, Eldan R, et al. Sparks of Artificial General Intelligence: Early experiments with GPT-4\[J\]. arXiv preprint arXiv:2303.12712, 2023. \[14\] Silver D, Huang A, Maddison C J, et al. Mastering the Game of Go with Deep Neural Networks and Tree Search\[J\]. Nature, 2016, 529: 484-489. \[15\] Silver D, Schrittwieser J, Simonyan K, et al. Mastering the Game of Go Without Human Knowledge\[J\]. Nature, 2017, 550: 354-359. \[16\] Jumper J, Evans R, Pritzel A, et al. Highly Accurate Protein Structure Prediction with AlphaFold\[J\]. Nature, 2021, 596: 583-589. \[17\] Campbell M, Hoane A J, Hsu F. Deep Blue\[J\]. Artificial Intelligence, 2002, 134(1-2): 57-83. \[18\] Chollet F. On the measure of intelligence\[J\]. arXiv preprint arXiv:1911.01547, 2019. \[19\] Shevlane T, Farquhar S, Garfinkel B, et al. Model evaluation for extreme risks\[J\]. arXiv preprint arXiv:2305.15324, 2023. \[20\] Anthropic. Anthropic's Responsible Scaling Policy\[R\]. September 2023. \[21\] SAE International. Taxonomy and Definitions for Terms Related to Driving Automation Systems for On-Road Motor Vehicles\[S\]. April 2021. \[22\] Shneiderman B. Human-centered artificial intelligence: Reliable, safe \& trustworthy\[J\]. arXiv preprint arXiv:2002.04087, 2020. \[23\] Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need\[J\]. arXiv preprint arXiv:1706.03762, 2017. \[24\] OpenAI. GPT-4 Technical Report\[J\]. arXiv preprint arXiv:2303.08774, 2023. \[25\] Anil R, Dai A M, Firat O, et al. PaLM 2 Technical Report\[J\]. arXiv preprint arXiv:2305.10403, 2023. \[26\] Touvron H, Martin L, Stone K, et al. Llama 2: Open Foundation and Fine-Tuned Chat Models\[J\]. arXiv preprint, 2023. \[27\] Terry M, Kulkarni C, Wattenberg M, et al. AI Alignment in the Design of Interactive AI: Specification Alignment, Process Alignment, and Evaluation Support\[J\]. arXiv preprint arXiv:2311.00710, 2023. \[28\] Morris M R, Cai C J, Holbrook J, et al. The Design Space of Generative Models\[J\]. arXiv preprint arXiv:2304.10547, 2023. \[29\] Liang P, Bommasani R, Lee T, et al. Holistic Evaluation of Language Models\[J\]. arXiv preprint arXiv:2211.09110, 2023. \[30\] Srivastava A, Rastogi A, Rao A, et al. Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models\[J\]. arXiv preprint arXiv:2206.04615, 2023.