清华与人大最新研究表明：AGI的到来时间需70年与10^26个参数，好像不用那么急了...

科学家建议用"生存游戏"测试AI智能，而非图灵测试

1950年，阿兰·图灵提出了"模仿游戏"，也就是广为人知的"图灵测试"，用来判断计算机的回答是否足以让人误以为它是人类。

如今，生成式AI模型已经通过了图灵测试，但科技界的焦点已转向人工通用智能（AGI）------即计算机能够像人类一样理解或学习任何智力任务的假设点。

目前，AGI的定义依然模糊，且尚未实现，尽管已经有人试图阻止 其出现。在AI支持者看来，AGI有点像量子计算------一个遥远的目标，但仍然能获得资金支持。

借鉴图灵等人设计的智力测试（虽然不是影迷们期待的《银翼杀手》中的Voight-Kampff测试），中国的研究人员提出了一种名为"生存游戏"的方法，用以判断AI模型是否达到了AGI水平。

"生存游戏本质上是自然选择的一种简化形式。"

该研究的作者包括Jingtao Zhan、Jiahao Zhao、Jiayu Li、Yiqun Liu、Bo Zhang、Qingyao Ai、Jiaxin Mao、Hongning Wang、Min Zhang和Shaoping Ma，他们分别来自清华大学和中国人民大学，并在arxiv论文中描述了这一方法，论文标题为《通过试错评估智能》（"Evaluating Intelligence via Trial and Error"）。
https://arxiv.org/pdf/2502.18858

论文的核心观点是评估当前AI系统是否能够通过持续的试错找到解决方案。论文作者、清华大学计算机科学博士生Jingtao Zhan在接受《The Register》采访时表示：

"这篇论文的核心思想是评估当前AI系统是否能够通过持续的试错找到解决方案。"

"如果一个AI系统能在有限的尝试次数内找到解决方案，就被认为'存活'；否则，它就会'灭绝'。"

通过测试的模型可以进入下一轮测试；未通过的模型则需要经过重新训练，直到成功为止，这一过程相当复杂。

生存游戏 涉及多个知识领域。例如，在图像分类任务中，测试会评估模型在试错多少次后才能得出正确的分类结果。在问答任务中，AI模型会接受MMLU-Pro、NQ和TriviaQA三个知名数据集的测试。在数学能力方面，该测试采用CMath、GSM8K和MATH竞赛数据集来评估AI的表现。

代码已发布到GitHub：https://github.com/jingtaozhan/IntelligenceTest

"生存游戏本质上是自然选择的一种简化形式，我们希望通过这种方法来测试AI是否具备适应环境并通过试错学习的能力。"------ Jingtao Zhan

"如果一个AI系统通过了该测试，这意味着它可以在无人监督的情况下自主寻找解决方案并独立运行。这既是我对AGI的理解，也是我提出的评估方法。"

研究结果显示，即使摩尔定律 （即芯片晶体管密度每两年翻一倍的趋势）在2016年的争议终结 之后仍然持续，想要构建一个能通过这些AGI测试的神经网络，其成本仍然会高得惊人，并且需要70年的时间才能让硬件支持预测中的AI模型。

"预测表明，实现能够执行通用任务的自主AI需要 () 个参数。" ------论文内容

这是一个巨大的数字： "比全人类大脑神经元总数的五个数量级还要高，"作者指出，人类大脑有10^11个神经元，而全球人口接近10^10，因此神经元总数为10^21。

抛开计算成本（如训练和推理），仅仅将具有如此多参数的模型加载到Nvidia H100 GPU上就已经是一种难以承受的奢侈。

"它们在面对需要连续试验和错误来找到解决方案的问题时，表现显著不佳。"

"由于H100 GPU的内存为80GB，我们需要5×10^15个GPU，"论文中说。"根据H100 GPU的成本（30,000美元）和苹果公司2025年2月的市值（3.7万亿美元），这些GPU的总价值将相当于苹果市值的4×10^7倍。正如我们所看到的，如果没有硬件和AI技术的突破，扩展以实现自主智能的成本是难以承受的。"

Zhan认为，这些结果表明，AI技术在能够自主解决未知问题之前还有很长的路要走，特别是在开放环境中，它必须通过自然选择来适应。

"虽然当前的AI系统在某些基准测试中表现良好，在预定义任务中实现了高精度，但它们在面对需要连续试验和错误来找到解决方案的问题时，表现显著不佳，"Zhan说。

Zhan指出，研究表明，当AI模型失败时，它们很少通过迭代尝试来找到正确的解决方案。

"在'生存游戏'中，这意味着它无法生存，"Zhan说。"这种试验和错误学习在现实世界应用中至关重要，特别是在工具使用、自主代理和自动驾驶汽车等领域。如果AI能够真正通过试验和错误来学习解决问题，这将是其广泛部署于现实世界的重要一步。"

值得思考。 无论你是否同意团队的方法和观点，我们中的一些人对这项研究持怀疑态度，但我们欢迎人们尝试在没有炒作或偏离的情况下计算AI技术的发展轨迹。

以上参考自：https://www.theregister.com/2025/03/05/boffins_from_china_calculate_agi/，并进行大量人工润色与修改。

备注：**昵称-学校/公司-方向/**会议(eg.ACL)****，进入技术/投稿群