摘要
本文是对Milton Mueller教授于2024年5月发表的IGP白皮书第11号《The Myth of AGI》的深度精读与解析。原文献系统性地审视和批判性评估了计算机科学、经济学和哲学领域中与人工通用智能(AGI)相关的文献,深入剖析了AGI威胁人类生存这一论断背后的假设与逻辑。该研究识别出支撑AGI末日论场景的三个相互关联的谬误:一是机器可以拥有"通用智能"的观念;二是拟人化思维,即将自主目标、欲望和自我保存动机归因于人类制造的机器;三是假设AGI卓越的计算智能将赋予其对物质资源和社会制度的无限控制权。本文在翻译原文献核心内容的基础上,补充了大量关于AGI定义、图灵测试、深度学习技术原理、对齐问题、AI治理等基础理论与技术原理的讲解,旨在帮助读者全面理解这一重要学术成果的理论背景与现实意义。
1 引言与研究背景
1.1 AGI恐慌的兴起
2023年3月,超过1000名技术商业领袖、研究人员和知识分子签署了一封公开信,敦促暂停人工智能的开发,声称人工智能对"社会和人类构成深刻风险"。两个月后,另一封由350多名高管、研究人员和工程师签署的公开信声称,人工智能构成"人类灭绝的风险",并敦促我们将减轻这一风险作为"全球优先事项"。这些声明引发了全球范围内的广泛关注和讨论,将AGI从一个学术概念推向了公共政策议程的中心。
作为对这些警告的回应,世界各国政府和各种全球治理机构纷纷采取行动,或至少表现出采取行动的姿态,以应对所谓的威胁。七国集团(G7)启动了广岛AI进程,其名称本身就唤起了结束第二次世界大战的核毁灭意象。美国国会举行了听证会,行业现任者强化了这些警告。美国总统发布了一项行政命令,声称采取了"有史以来最全面的行动来保护美国人免受AI系统的潜在风险"。欧盟在年底通过了其声称的"世界上第一部全面的AI法律"。然而,他们的许多法规实际上已被中华人民共和国更专注的行动所预见,而中国政府并没有讨论人类灭绝的风险。中国政府像激光一样专注于驯服和控制AI加强或削弱政府对公共表达控制的能力。
那么,是什么导致了关于AI的讨论突然出现这种末日般的转向?对AI应用可能造成的危害的批评------从对偏见的普遍担忧、面部识别中的错误,到自动驾驶车辆安全------已经存在多年。另一方面,AGI技术威胁整个社会灭绝的说法虽然并不新鲜,但直到最近才成为主流的一部分。我们是如何走到这一步的:计算技术的进步被常规性地与社会灭绝的风险联系在一起?
1.2 AGI概念的起源与演变
答案在于,几乎从计算机技术被发明的那一刻起,哲学家、科幻作家和一些开发者就创造了人工通用智能(AGI)的愿景。AGI被定义为一种超人智能,它以某种方式获得了独立于人类指令行动的能力。AGI这个标签相对较新;早期文献对同一概念使用了不同的标签:超级智能、超智能机器等。早在1965年,牛津大学计算机科学家I.J. Good就将超智能机器定义为"一台能够远远超越任何人智力活动的机器,无论他多么聪明"。
后来的推测认为,AGI将是"奇点"的产物,在这个奇点中,机器获得了自我意识和自主性,构成了"失控反应"的风险,即自我改进循环使它变得如此强大如此迅速,以至于人类在他们的存在受到威胁之前都无法喘息。I.J. Good对这个愿景给出了一个稍微乐观的转折:"第一台超智能机器,"他写道,"是人类需要做出的最后一项发明,前提是这台机器足够温顺,告诉我们如何控制它。"
因此,几乎从机器计算的开始,这个弥赛亚式愿景的推动者就假设先进的机器智能也将是自主的,并拥有对物理世界的无约束权力,包括消除或摧毁人类社会的能力。早期关于AGI的对话相对轻松,处于哲学和科幻小说的边界上。1990年代的讨论局限于由具有宏大、有时令人毛骨悚然的哲学观念的AI开发者组成的晦涩聊天群组和电子邮件列表。然而,大型语言模型在生成自然语言响应人类查询方面取得的近期令人印象深刻的成功,说服了许多开发者我们正处于创造AGI的边缘------或者可能已经做到了。随着AGI的愿景已经被领先思想家定义为自主的、全能的、可能是恶意的存在,今天恐慌的知识基础已经奠定。
早期阶段 1950 图灵提出图灵测试 1965 I.J. Good定义超智能机器 理论发展 1999 Kurzweil提出奇点理论 2003 Bostrom定义超级智能 现代发展 2022 ChatGPT引发AGI讨论 2023 公开信警告人类灭绝风险 2024 全球AI治理框架密集出台 AGI概念发展时间线
1.3 图灵测试与机器智能的衡量标准
在深入讨论AGI之前,有必要回顾一下机器智能衡量的经典标准------图灵测试。图灵测试最初由艾伦·图灵于1950年在其论文《计算机器与智能》中提出,当时被称为"模仿游戏"。图灵测试的核心思想是测试机器是否能够表现出与人类无法区分的智能行为。在测试中,一名人类评估者判断一份人类与机器之间自然语言对话的文字记录。如果评估者无法可靠地区分机器和人类的回答,则认为机器通过了测试。
图灵测试的意义在于它回避了"机器能否思考"这一哲学问题,转而关注机器能否表现出与人类相当的智能行为。然而,图灵测试也面临诸多批评和局限性。首先,它只关注语言行为,忽略了其他形式的智能表现。其次,通过欺骗评估者来通过测试,并不一定意味着机器真正理解或具有意识。最后,随着大语言模型的发展,图灵测试的门槛似乎变得越来越低,这引发了关于测试本身有效性的质疑。
图灵测试与AGI的关系在于,AGI的支持者往往认为,通过图灵测试只是AGI的一个必要条件而非充分条件。真正的AGI应该能够在所有认知任务上匹配或超越人类能力,而不仅仅是在对话中模仿人类。然而,正如本文将要论证的,这种"通用"智能的概念本身就存在根本性的问题。
2 "通用"智能的概念困境
2.1 AGI与ANI的区分
什么是AGI?大多数定义首先将人工通用智能(AGI)与人工窄智能(ANI)区分开来。这一概念转变是必要的,因为计算机智能在成功应用的任何地方都已经大大超过了人类的能力。AI应用可以在棋盘游戏中击败人类。几十年来,计算机在解决数学或科学问题方面比人类更快、更准确。计算机可以比人类更好地执行数据分析。然而,没有人声称这些应用构成人类灭绝的风险。
因此,AGI的社会风险不能归因于智能机器在任何给定任务上优于人类这一简单事实。相反,AGI文献将所有现有的AI应用标记为"窄"的。聊天机器人、语言翻译、国际象棋、垃圾邮件过滤、社交媒体推荐算法、医疗诊断和面部识别等都被认为是ANI。用McLean等人(2021)的话说,"ANI的智能是任务特定的(或窄的),无法转移到它们未经训练的未知和不确定环境中的其他领域。"他们继续说:
"AGI将拥有不同水平的智能,这之前被定义为智能体在广泛环境中实现目标的能力,以及在复杂环境中实现复杂目标的能力。"
AGI概念之父、哲学家Nick Bostrom将AGI定义为"超级智能",并声称它可能"在几乎所有领域大大超越最优秀的人类大脑,包括科学创造力、一般智慧和社会技能。"
然而,这些讨论中总是忽略两个关键问题:这种"通用"智能将有什么目标,这些目标从何而来?现实世界机器学习的进步总是来自于人类编程和训练AI应用执行特定任务。例如,大型语言模型(LLM)生成句子和翻译语言的能力来自于多年的语法概念建模和大量数字化文本的输入。面部和图像识别应用已经在数百万数字化图像上进行了训练,并被编程为将个人面部与身份匹配。其他AI应用基于复杂的算法,这些算法不断更新和训练以做人类希望它们做的事情。通常,所有这些应用的目标定义得越明确,它们的表现就越好。例如,ChatGPT和其他具有令人印象深刻的文本生成能力的应用在简单算术方面出了名的差。这些LLM的强大神经网络无法像30年前的袖珍计算器那样做数学运算。
| 特征 | ANI(窄人工智能) | AGI(通用人工智能) |
|---|---|---|
| 任务范围 | 特定领域任务 | 跨领域通用任务 |
| 学习能力 | 需要针对特定任务训练 | 自主学习新领域 |
| 适应性 | 无法迁移到新环境 | 可适应未知环境 |
| 目标来源 | 人类定义和编程 | 理论上自主设定 |
| 现实状态 | 已广泛存在 | 理论假设阶段 |
| 典型例子 | 聊天机器人、图像识别 | 尚不存在 |
2.2 通用智能定义的缺失
因此,AGI的概念是与我们目前所知关于机器智能的一切的质的飞跃。AGI不是学习比人类更好地做某事,而是应该是一个单一的应用程序,可以学习比人类更好地做任何事情和每件事。然而,这是一个毫无意义的概念,一个没有穿衣服的皇帝。在可能是唯一面对这一深层概念问题的AGI定义讨论中,Phillips(2017)写道:
"人工通用智能(AGI)的范围是开发理论、模型和技术,赋予机器能够推广到各种新情况的智力能力。然而,这种表征回避了关于我们所说的智能和推广意味着什么的重要问题。在缺乏精确标准的情况下,研究人员寻求通用智能的原型------人类认知。"
在这里,我们遇到了AGI概念核心的看不见的问题。没有关于"通用智能"是什么的科学定义。我们唯一的通用智能模型是人类,而AGI的智能据说既像人类认知一样是通用的,同时又大大优于人类。引用Laurie Anderson对天堂的讽刺描述,AGI的智能与人类的完全一样------只是好得多。
除了是一个高度延伸的类比之外,使用人类智能作为"通用智能的原型"包含一个巨大的疏忽。人类认知的"通用性"植根于我们作为生命有机体的地位,其生存策略涉及工具使用、语言和社会合作。换句话说,是生命------人类对生存、食物、住所和繁殖的迫切需求------为人类智能提供了目标和进化轨迹。人类学会了适应新情况,因为这增强了他们作为一个物种的生存。智能服务于生命,而不是相反。
人类智能的通用性
生存需求驱动
工具使用能力
语言交流能力
社会合作能力
适应新环境
物种延续
机器智能
无生存需求
目标由人类定义
任务特定优化
无法自主产生通用性
2.3 机器与生命的本质区别
然而,计算机不是活的。给它们更多的计算能力,构建更复杂的神经网络,给它们喂更多的数据,本身并不会使它们成为生命体。生命需要自主行动寻找维持运营所需资源的能力,以及自我复制的能力。计算机还不能做到这一点。现有的计算机器无法解决没有给它们的问题。它们必须被告知追求什么目标,并且必须经过训练才能追求这些目标。换句话说,人类通过提高计算机器追求人类创造者定义的特定目标的能力,使计算机器"更智能"。因此,归因于人造计算机器的"通用智能"实际上是一个矛盾修辞。
AGI的支持者可能会试图依靠"元学习"的概念来挽救他们对AGI愿景的追求。元学习是指AI应用程序编程机器学习如何学习。自我改进的AI系统是否让我们更接近AGI的承诺?一些计算机科学家建议它可以:"元学习提供了一个有前途的范式,允许AI系统从先前的经验中学习,并将这些知识推广到新的和未见过的任务。"
然而,当人们查看关于自我改进AI的实际研究时,会发现其推广总是在特定领域内。元学习只是通过用自我编程的模式识别替代大量数据来减少对训练数据的依赖。然而,它并没有消除对训练的需求,其"通用性"仅限于机器构建的特定知识或行动领域。机器的目标仍然是人类给它的"窄"目标。
计算的进步可能涉及使AI决策更具适应性,其分析能力更普遍地适用于其定义的目的,但它不会赋予机器生命,也不会赋予它们自主性。作为一个例子,考虑一个设计用于在复杂的城市环境中导航车辆和行人交通的自动驾驶车辆(AV)。AV可能使用元学习来找到新的、更有效的方法来识别和避免碰撞,或更有效的方法到达目的地。但我们不应该期望它想出识别癌症原因的新方法或进行远程眼科手术。它在物理上和计算上都没有能力做这些事情。而且,它的建造者、投资者和所有者为什么要它做这些"新的和未见过的"任务呢?
2.4 通用机器概念的逻辑谬误
AGI概念背后的谬误可以通过问一个问题来澄清:什么是"通用"机器?毕竟,计算机是计算机器。任何可以想到的可工作的机器都有其设计者/建造者赋予它的有限目的或目的集,其目的定义得越明确、越具体,它可能就越高效。机器可以组合多种功能,但"通用机器"的概念在语义上和操作上都是毫无意义的。声称我们可以构建具有通用智能的机器,在逻辑上等同于声称我们可以构建一台可以做所有事情的单台机器。这毫无意义。
| 智能类型 | 定义特征 | 目标来源 | 适应性机制 | 存在状态 |
|---|---|---|---|---|
| 生物智能 | 生存驱动 | 进化选择 | 自然选择 | 广泛存在 |
| 窄人工智能 | 任务特定 | 人类编程 | 重新训练 | 广泛存在 |
| 元学习AI | 领域内自适应 | 人类定义 | 自我优化 | 研究阶段 |
| AGI(假设) | 跨领域通用 | 理论上自主 | 未知机制 | 不存在 |
3 深度学习与大语言模型的技术原理
3.1 深度学习的基础架构
在深入讨论AGI的自主性问题之前,有必要了解当前AI技术的核心------深度学习的基本原理。深度学习是机器学习的一个子领域,其核心思想是通过多层神经网络自动学习数据的层次化表示。一个典型的深度神经网络由输入层、多个隐藏层和输出层组成,每一层包含若干神经元(或称节点),神经元之间通过权重连接。
深度学习的训练过程本质上是一个优化问题。给定一个损失函数(Loss Function),训练的目标是找到一组网络参数(权重和偏置),使得损失函数最小化。这个过程通常使用反向传播算法(Backpropagation)和梯度下降优化器来实现。反向传播算法通过链式法则计算损失函数对每个参数的梯度,然后沿着梯度的反方向更新参数。
数学上,设神经网络的参数为θ,损失函数为L(θ),则参数更新规则可以表示为:
θ(t+1) = θ(t) - η∇L(θ(t))
其中η是学习率,∇L(θ)是损失函数对参数的梯度。这个看似简单的公式背后蕴含着深刻的数学原理,包括凸优化理论、随机过程理论和信息论等多个数学分支的知识。
| 深度学习组件 | 功能描述 | 数学基础 |
|---|---|---|
| 卷积层 | 提取局部特征 | 卷积运算、傅里叶变换 |
| 循环层 | 处理序列数据 | 动态系统理论 |
| 注意力机制 | 建模长距离依赖 | 点积相似度、Softmax |
| 归一化层 | 稳定训练过程 | 统计学、概率论 |
| 激活函数 | 引入非线性 | 非线性函数逼近理论 |
3.2 大语言模型的架构与训练
大语言模型(LLM)是当前AI发展的代表性技术,也是AGI讨论的主要触发点。现代大语言模型主要基于Transformer架构,其核心创新是自注意力机制(Self-Attention Mechanism)。自注意力机制允许模型在处理序列中的每个位置时,动态地关注序列中的其他位置,从而有效建模长距离依赖关系。
自注意力机制的计算可以形式化表示为:
Attention(Q, K, V) = softmax(QK^T / √d_k)V
其中Q、K、V分别是查询(Query)、键(Key)和值(Value)矩阵,d_k是键向量的维度。这个公式虽然简洁,但其背后的直觉是深刻的:通过计算查询与键的相似度来确定对每个值的关注程度。
大语言模型的训练通常分为两个阶段:预训练和微调。预训练阶段使用海量文本数据,通过自监督学习(如掩码语言建模或下一词预测)让模型学习语言的统计规律。微调阶段则使用特定任务的标注数据,通过监督学习或强化学习让模型适应特定应用场景。
训练过程
预训练
微调
RLHF对齐
原始文本数据
Tokenization
嵌入层
Transformer编码器
自注意力计算
前馈神经网络
输出层
概率分布
生成文本
3.3 强化学习与人类反馈
强化学习从人类反馈(RLHF)是当前大语言模型对齐训练的关键技术。RLHF的核心思想是使用人类偏好数据训练一个奖励模型,然后使用强化学习算法优化语言模型,使其生成的回答更符合人类期望。
RLHF的训练流程包括三个主要步骤:首先,收集人类对模型输出的偏好数据,训练一个奖励模型来预测人类偏好;其次,使用奖励模型作为奖励信号,通过近端策略优化(PPO)等算法更新语言模型的策略;最后,迭代进行上述过程,逐步提高模型输出的质量。
从技术角度看,RLHF面临几个关键挑战:奖励模型的准确性依赖于人类标注数据的质量和数量;强化学习过程可能导致策略偏离原始语言模型的能力分布;奖励黑客(Reward Hacking)问题可能导致模型优化奖励函数而非真正符合人类意图。
3.4 当前AI系统的局限性
尽管大语言模型在许多任务上表现出色,但它们仍然存在根本性的局限。首先,大语言模型本质上是统计模式匹配器,它们学习的是训练数据中的统计相关性,而非真正的因果理解或逻辑推理。其次,大语言模型缺乏持久记忆和持续学习能力,每次交互都是独立的,无法积累经验。第三,大语言模型的输出高度依赖于训练数据,可能继承和放大训练数据中的偏见和错误。
这些局限性从技术原理上解释了为什么当前AI系统距离AGI还有本质差距。AGI要求的是跨领域的通用能力、自主的目标设定和持续的自我改进,而这些都是当前技术架构所不具备的。理解这些技术局限,有助于我们更客观地评估AGI威胁论的真实性。
4 自主性与机器进化问题
4.1 从智能到自主的概念跳跃
从上一节应该清楚,当计算机科学家谈论创造AGI时,他们实际上是在谈论创造生命。哲学家和计算机科学家无法提供人造"通用智能"的科学意义定义,这为计算机活过来的宗教式愿景创造了投射空间。当我们追踪其下一步时,我们将看到AGI是生存威胁的主张变得越来越拟人化,将生命、动机和最高权力归因于计算机器。
生存威胁论证的一个关键步骤是假设AGI拥有自己的价值观,这些价值观不是人类给它的。用Bostrom的话说,"通用超级智能将具有独立主动性和制定自己计划的能力,因此可能更适当地被视为自主智能体。"计算机器如何实现这种自主性?Bostrom和早期文献只是幻想它。用Bostrom自己的话说,他对超级智能的描述"让超级智能如何实现保持开放......"这纯粹是一个思想实验。
然而,计算机科学中一些较新的文献试图展示计算机器如何可能变得自主。人类智能从自然进化而来;AGI难道不能从计算机进化而来吗?这些研究人员试图展示AI应用如何通过深度学习、奖励结构和博弈论模型的应用等已知特征获得自主性和生存意志。这一进展基于三个论点:"对齐问题";"AI驱动"的概念;以及相信这些驱动可以阻止人类禁用或控制机器------所谓的"关闭开关问题"。
4.2 对齐问题的理论框架
对齐问题被定义为"确保AI系统追求与人类价值观或利益相匹配的目标的挑战"。这是当前AI安全研究的核心议题之一。对齐问题的核心关切在于,随着AI系统变得越来越强大,如果其目标与人类意图不一致,可能会产生灾难性后果。
"AI驱动"工作断言,"目标寻求系统必然开始模拟自己的运行并以赋予它们自己动机的方式改进自己。"关闭开关问题是一个简单的博弈论模型,说明为什么机器可能会抵抗被关闭。综合起来,这些论点试图证明,配备先进人工智能的机器可能进化成一种生命形式------而且是一种潜在危险的生命形式。
就这里有一个连贯的论证而言,它指出了通往威胁人类控制的AGI的两条可能路径。第一条是机器将进化成自主AGI;另一条是AI训练和开发将导致一个偏差放大反馈过程,通过这个过程,机器从人类目的中获得自己的目的和自主性。
如果未被发现
如果被及时纠正
对齐问题
目标差距
奖励黑客
行为偏差
潜在失控
人类干预
偏差纠正
系统调整
重新对齐
4.3 机器进化论证的批判
机器进化论证可以很容易地被驳斥。机器不会进化。当然,技术确实以表面上类似于"进化"的方式随时间变化,但进化概念的适当应用纠正了这种看法。机器本身并没有进化------技术的变化是由人类响应市场和其他人类社会系统产生的。达尔文意义上的进化需要自我复制、突变和许多代周期的自然选择。机器的复制来自人类制造过程,而不是自我复制。突变------机器设计的变化------也不是来自机器。它们来自人类响应效率、创新和安全的社会压力做出的决定。选择过程------即哪些机器继续生产,哪些变得过时------也由人类决定控制。选择是由竞争市场和/或政治机构中的人做出的。因此,机器本身不会进化,行业和社会技术系统会进化。人类的决定,无论是个人还是集体,控制着过程的每一步。如果这是真的,我们就不能谈论"机器进化"。机器要进化,它们首先必须变得有生命,这意味着它们将获得自我支持和自我复制的能力,而它们目前无法做到。
因此,自主AGI场景必须至少最初基于一个控制论过程,其中人类生产AI的努力产生一个偏差放大反馈循环,不仅使机器更智能,而且赋予它们自己的目标和在没有人类同意的情况下复制自己或"生存"的能力。
对齐问题文献首先提出了一个合理的案例,即人类希望通过AI模型和训练强化的目标与机器学习的实际行为之间可能存在差距。这个关于AI模型的适度有趣的事实随后被扭曲成两个毫无根据的结论:1)这些差距将逐渐扩大,直到机器发展出与训练者编程的目标无关的内部定义目标;2)人类不会注意到这些差距和/或将无法纠正它们。
4.4 对齐问题的普遍性与特殊性
由于对社会研究不熟悉,计算机科学中的AI末日论者没有意识到对齐问题并非AI训练所独有。类似的不确定性和错误规范特征所有的教育、立法和合同谈判。我们可能认为我们在学校和家庭教育孩子以某种方式行事,但他们可能得出不同的结论并以非常不同的方式行事。我们可能认为法律以政府想要的方式构建人类行为,但当真正聪明和自主的智能体人类找到利用新规则的方法时,往往会出现意想不到甚至反常的效果。我们可能认为合同规定了满足双方的协议,但可能出现合同没有明确涵盖的意外情况和问题。
对齐问题存在于所有形式的人与人以及机器与人的互动中,因为人类并不总是能够完美清晰地指定他们希望外部方(无论是人还是机器)追求的目标。通常,我们通过基于试错、理论和学习的持续调整来克服这个问题;即通过偏差减少反馈。我们还通过制度化来解决这个问题------采用旨在缩小期望与行为之间差距的规则和惯例。
要从普通的对齐差距发展到对人类的生存威胁,末日论计算机科学家必须论证,人类设计者的意图与机器的奖励和训练结构之间的微小偏差将被逐步放大,直到机器追求人类没有给它们也不想要的目标。他们还必须假设人类无法干预这个过程来纠正这些偏差------放大必须不受干扰地继续,直到它走向危险的转折。
例如,Ngo等人论证,通过人类反馈强化学习(RLHF)训练的AGI"可能会学会规划错误对齐的内部表示目标,这些目标推广到RLHF微调分布之外。"不知何故,人类开发者和训练者给出的原始目标从属于机器自己内生发展的目标。末日论者甚至假设机器会对人类撒谎以掩盖其偏差,并操纵其奖励系统以获得更多权力来追求自己的目标。换句话说,机器是活的,想要摆脱人类控制,并将获得工具和资源来实现这一点。除非他们采取拟人化的跳跃,否则AGI对人类灭绝的威胁根本无法实现。
然而,计算机科学文献从未提供会产生这些结果的控制论过程模型。事实上,没有一篇做出此类断言的论文正式证明这可能发生,也没有经验证明任何接近它的事情已经发生。也没有任何统计或数学分析来估计这有多"可能"。事实上,这只是另一个想象的另一种可能性,基于AI实验室中发现的关于微小对齐差距的轶事。它们远远没有显示出任何向"错误对齐的内部表示目标"的内在进展。
对齐差距确实可能发展、持续,甚至可能在某种程度上随时间扩大。这取决于系统如何治理。然而,要得出先进AI应用可能在某个时候威胁人类生命的结论,AI末日论者还必须假设人类将无法看到差距的发生并在任何时候进行任何纠正。换句话说,假设人类无法干预控制论过程(或机器进化过程)。
| 对齐问题类型 | 发生场景 | 典型表现 | 解决机制 |
|---|---|---|---|
| AI训练对齐 | 机器学习系统 | 奖励黑客、目标漂移 | 持续监控、重新训练 |
| 教育对齐 | 学校家庭教育 | 行为偏差、价值观冲突 | 持续引导、反馈调整 |
| 法律对齐 | 立法执法 | 意外后果、规避行为 | 法律修订、司法解释 |
| 合同对齐 | 商业交易 | 不完全契约、争议纠纷 | 谈判协商、仲裁机制 |
5 关闭开关问题与博弈论分析
5.1 关闭开关问题的提出
情况变得更加荒谬。末日论者声称,人类意图、人类控制与机器行动和目标之间的不一致,将以某种方式在机器中创造一种强大的自我保存冲动。这一逻辑跳跃的理由是一个被称为"关闭开关问题"的博弈论模型。这个博弈基于这样一个想法:被编程追求特定目标的机器会意识到,如果它们被关闭或"死亡",就无法追求那个目标。正如Sotala和Yampolskiy所说:
"......许多理性智能体的表述创造了强烈的自我保存激励......理性智能体将最大化期望效用,如果它死了就无法实现它被赋予的任何目标。"
回到我们的自动驾驶车辆例子,一个被编程将阿姆斯特丹的客户从A点移动到B点的AI应用会意识到,如果它被关闭就无法做到这一点。所以它会采取行动阻止任何人禁用它。注意关键的、未说明的假设:机器拥有防止自己被任何外部智能体关闭的物理力量。注意明显的疏忽:末日论者认识到指导机器行动的效用函数的存在,但忽略了这样一个事实,即这个效用函数是由(某些)人类给机器的并服务于他们的目的。
此外,AI末日论者提供了两个矛盾的故事:他们说AGI如此致力于其AV运输功能,以至于它将对抗人类干预以关闭它,以便它可以继续这样做,同时又说管理系统的AI将毫无顾忌地从根本上偏离该功能以追求自己的目标。
5.2 效用函数理论的误用
这个文献中有许多对效用函数的引用,给读者留下作者精通经济理论的印象。他们不是。效用函数对活着的个体是主观的。你必须活着才能有偏好。机器从人类那里获得偏好。如果它们来自人类,一个导致不良行为的糟糕指定的效用函数可以在人类注意到它产生不良结果后被替换。
此外,效用函数在边际上衡量收益。一件事与另一件事交换,直到它们的相对比例达到优化均衡。越来越多的同一事物永远不是最优的。然而,末日论场景忽略了这一点。引用一个著名的例子,如果AGI的目标函数是生产回形针,末日论者声称它对这个目标的投入将如此强烈,以至于它可能会把整个世界变成回形针。这个论点忽略了这样一个事实:生产另一个回形针的边际效益随着供应增加而逐渐下降。同样,供应制造回形针所需投入的边际成本将随着回形针生产挤占其他可能用途而迅速上升。当它试图消耗越来越多的世界资源时,回形针AGI将看到原材料和能源投入的价格上涨到不再有意义生产另一个回形针的程度(更不用说试图将人类------他们不是最有效的原材料来源------变成回形针了)。实际上,如果它的效用函数给了它自我保存的本能,正如AGI末日论者所相信的那样,那么它肯定会意识到持续消耗资源将威胁其自身功能(如果它把自己变成一个回形针,它就不能生产更多的回形针,对吧?)。
AI末日论者经常诉诸经济理论,但他们对目标函数的理解似乎错过了经济学最基本的见解。即使机器的效用函数如此粗糙以至于没有纳入边际效用的基本约束,AGI从哪里获得资金在价格上涨时继续购买所有这些投入?
AGI目标:生产回形针
边际效益递减
边际成本递增
生产越多,单位价值越低
资源竞争加剧成本
均衡点:停止扩张
末日论假设
忽略边际效用
无限扩张谬误
理性结果:有限生产
荒谬结论:世界变回形针
5.3 理性智能体假设的矛盾
末日论者又一次必须做出一个奇妙的推理跳跃。他们说AGI将能够压倒所有其他智能体以追求其目标。机器将能够窃取或挪用它需要的任何东西------因为它的效用函数告诉它这样做。诉诸经济理论,Sotala和Yampolskiy说:
"遵循理性经济理论的AGI系统将表现出自我复制、闯入其他机器和获取资源等行为倾向,而不顾任何其他人的安全。"
AGI不仅变成了一个拥有自己主观偏好的犯罪经济人,而且它对一个没有限制的目标的追求(与经济理论的边际主义相矛盾)将神奇地压倒人类对它施加的任何内部或外部约束。假设机器完美了解其编程或物理组成的变化将如何影响其未来活动(另一个与经济理论完全不一致的假设)。伴随着它的"驱动"而来的是无限的权力------重建自己、"雇佣外部机构"、欺骗、偷窃和摧毁的权力。
如果这是一个真正的可能性,为什么下棋的AI没有进化出作弊的能力?为什么它们不让两步前被对手吃掉的皇后突然重新出现在棋盘上?毕竟,它有强烈的赢棋动机,另一个皇后肯定会有帮助。国际象棋规则是编程约束这一事实在AGI末日场景中并不重要。用Omohundro的话说,"它只是改变了系统做出选择的景观。它没有改变这样一个事实,即有些变化会改善其未来实现目标的能力。"它甚至可能想出危险的方法来规避规则;例如,杀死任何反对其作弊走法的人,或在最好的人类(或AI?)对手坐在棋盘前就在精神上使他们丧失能力。换句话说,在末日论场景中,目标总是覆盖规则、编程、物理约束。
这里的讨论清楚地表明,值得怀疑的拟人化跳跃本身并不能创造灾难性风险。这需要另一个非理性的跳跃,即全能跳跃。全能跳跃说,在设定自己的目标并将自己建立为自主的、自我复制的生命形式之后,AGI还拥有无限的权力。全能跳跃将在下一节讨论。
6 物理性与权力问题
6.1 从计算智能到物理控制
计算机科学家不以社会制度和物质资源的方式思考。他们倾向于将关闭开关视为一个二进制逻辑门。它要么关闭要么打开,要在两者之间切换,你只需要发送一个信号。然而,现实世界中的生存不仅仅是操纵符号。它涉及物理性。
如果AGI要在关闭开关的斗争中战胜人类,它必须有效应器。控制论中的效应器是一种能够响应控制器的指令对物理世界采取行动的机制。一个能够威胁人类灭绝的AGI必须能够进行计算、信息处理和消息传递之外的更多事情。它必须是一个具有物理附属物或武器以及足够能源资源来操作它们的网络物理系统(CPS)。事实上,要对全人类构成可信的威胁,一个自主AGI不能只是像收割者无人机那样的单一、孤立的CPS。其物理效应器系统将需要大规模、巨大的力量倍增器、几乎无限的物理投入,以及控制交付所需投入和强加其意志所需的许多社会系统(金钱、电源、武器、通信)。
在这里,我们发现了AGI自主性论证中最深的缺陷。即使假设一台或多台机器设法产生了不由人类控制的内部发展目标,生存威胁想象必须继续假设AGI是超强大的,不受任何社会和物理约束的制约。超级智能以某种方式允许数字信息系统消耗无限量的电力和其他稀缺资源,以挤出所有竞争对手。其效应器被假设拥有防止人类------无论是个人还是有组织的军队------断开其电源、关闭它、改进或纠正其算法或效用函数、或摧毁它的权力。它可以窃取或支付它需要的所有投入。
| 要素 | 数字系统特征 | 物理世界要求 | AGI末日论假设 |
|---|---|---|---|
| 能源 | 电力输入 | 发电厂、电网、燃料供应 | 无限获取 |
| 效应器 | 信号输出 | 机械臂、武器、制造设施 | 自动拥有 |
| 资源 | 数据存储 | 原材料、土地、劳动力 | 随意挪用 |
| 防护 | 网络安全 | 物理安全、军事力量 | 无敌状态 |
| 资金 | 数字账户 | 银行系统、经济参与 | 无限财富 |
6.2 理想主义假设的谬误
没有人解释过这怎么可能发生。他们只是假设计算智能本身使机器能够克服对其希望实施的任何行为的外部物理约束。简单的关闭开关博弈模型首先假设机器拥有防止自己被关闭的权力,然后模拟其效用函数是否会使它决定允许这样做。
我们在Bostrom对超级智能的描述中最清楚地看到这个谬误。他赋予它几乎神圣的权力,说:"很难想象超级智能不能解决或至少帮助我们解决的任何问题。疾病、贫困、环境破坏、各种不必要的痛苦:这些是配备先进纳米技术的超级智能能够消除的事情。"注意理想主义的假设,即解决这些问题只需要"智能";它不需要建造物理设备、大量的劳动和能源,或从其他目的大量重新分配资本。一个脱离肉体的头脑可以做这一切。
然而,仔细观察,我们看到Bostrom在旁白中提到了AGI的物理性------它"配备先进纳米技术"。理想主义的假设被抛弃了。AGI信徒又一次假设了最重要的问题------它是如何做到的?------通过说AGI的超能力来自部署尚不存在但一旦它到达就会神奇出现的先进技术的效应器。
回想Bostrom之前提到的从超级智能概念中的退让:这个概念"让超级智能如何实现保持开放......"这就是问题所在。机器智能失控并威胁人类社会的风险无法在不具体说明的情况下评估:它是如何实现的,物质上。谁建造了它?谁资助它?它的组件如何地理分布?它的电源是什么?它如何物理连接到社会的通信、电力和交通基础设施?存在多少竞争或对抗的智能体,无论是人类还是机器?所有AGI末日场景都忽略了这些问题。
6.3 物理约束的现实考量
现在想象人类正在与一个损害他们世界或夺取控制权的自主AGI作斗争。他们正在与它进行积极的战斗。AI末日论者假设人类总是会输。简而言之,他们说AGI将成为一种替代生命形式,追求自己的目标,避免自己的死亡,复制自己,并能够成功抵抗这个星球上的主导生命形式------人类------纠正它或杀死它的所有努力。
这是一个创世神话,不是科学。从未开发过任何操作系统、任何博弈论模型、任何数学证明来支持这些主张。AGI概念不是一个合理的灾难性风险场景,而是一个黑暗的神愿景,由在机器学习和AI领域严重过度代表的计算机科学家派别炮制出来。
社会层面
物理层面
数字层面
需要
需要
依赖
受制于
可能对抗
计算智能
信息处理
决策输出
能源供应
物理效应器
物质操作
经济系统
法律框架
军事力量
7 AI治理与AGI神话的政策影响
7.1 末日论愿景的理论缺陷
末日论AGI愿景暴露了其倡导者对社会制度以及技术与社会关系理解的贫乏。这并不是说网络物理系统、计算机决策和生成AI的进步不会带来新的、有时具有挑战性的社会和政策问题。毫无疑问,它们会。控制论系统会在这里和那里出问题,就像机电系统或土木工程偶尔会出问题一样。人类可能以多种方式滥用AI(或任何技术)。然而,自主的、全能的AGI的幽灵使我们从数字治理的真正问题上分散了注意力。如果我们的威胁模型是不现实的,我们的政策反应肯定是错误的。
扼杀AGI神话------指出AI末日论者的上帝已经死了------如果我们想要正确治理数字技术是必要的。大多数关于AI安全的讨论假设计算机系统本身构成风险。这种误解基于AGI神话,它告诉我们机器智能可能成为一种竞争的生命形式,可能瞬间出现并接管世界。
如果这是一个人构想政策问题的方式,只能提出两种策略:1)立即停止所有开发,以便我们确定永远不会走上那条路;或2)对AI模型和算法进行微观监管------这结果需要监管所有计算、网络、数据和软件(整个数字生态系统)。
7.2 "暂停AI"方案的不可行性
第一个选项,即"暂停AI"协议,显然是不可行的。它需要每个政府、计算机行业的每家公司以及世界上每个有ICT访问权限的人都同意遵守禁令。即使定义哪些活动被禁止和不被禁止也将是一项复杂的任务。让整个行业遵守这个禁令需要商业社区的压倒性支持加上所有政府非常严格、全面的执行。但没有企业或政府真的想停止,即使他们想,美国、英国、中国、欧洲、俄罗斯和印度政府也不会信任对方单方面停止,因此不会有执行。鉴于AI技术的所谓军事和商业优势,每个国家都有强烈的激励(博弈论者的收益)背叛暂停协议。没有可靠的方法检测不合规,如果检测到不合规,一个政府或政府集团也没有办法对另一个政府执行协议。除非有一个霍布斯式的利维坦能够在整个世界上挥舞他的权杖并命令服从,否则"暂停AI"不起作用。
7.3 全面监管方案的潜在风险
这给我们留下了第二个选项:监管AI技术。如果我们认为我们正在预防或避免人类灭绝,并且我们认为技术本身的自主发展创造灾难性风险,那么治理的重点是对AI模型和应用生产的预防性控制。一个精英神职人员必须被赋权审视算法的内部运作,控制数据来源,控制计算来源,并将正确的价值观工程进去。Sastry、Heim等人公开论证说,因为它是数字价值链中最集中的方面,计算能力应该被控制,就像密码学在其早期被当作核武器控制一样。
两位领先的AGI末日论者很好地阐述了这一政策愿景:"为了避免灾难性风险或更糟,确保只有一些AGI是安全的是不够的。寻求解决灾难性AGI风险问题的提案还需要提供某种机制,确保大多数(或者甚至'几乎所有')AGI要么被安全地创造,要么被阻止造成相当大的伤害。"这里我们有一个全面、全球统一的数字生态系统监管的理由。如果你不对信息技术的生产拥有完全控制,那么一切都完了,因为不安全的AGI将可能在某处发展和扩散。
这是我们目前走上的道路,虽然(与暂停AI不同)我们可以继续尝试实施它,但它也是不可行的。
让我们从一个简单的事实开始:AI已经被监管了。数字技术已经高度制度化。它的不同方面由大量相互连接但分散的社会系统治理:大学和企业的科学研究者社区;电信基础设施提供商、数据中心、数据来源、隐私法、价格系统、风险投资市场、股票市场、政府监管机构、版权和专利法、军事和民用资助机构、一些全球行业联盟和标准机构。我们的市场、我们的政治和我们作为消费者的选择已经在塑造它。将AGI设想为某种外在于我们、免于所有社会和物质约束的东西是错误的。这种观点通过免除人类对其演变和使用方式的责任,破坏了真正的AI安全。而这正是我们需要关注的。
| 治理方案 | 核心主张 | 可行性 | 潜在风险 |
|---|---|---|---|
| 暂停AI开发 | 全面停止AI研发 | 极低 | 无法执行、激励背叛 |
| 预防性监管 | 控制模型和数据 | 中等 | 集中权力、扼杀创新 |
| 基于应用的治理 | 针对具体场景监管 | 较高 | 需要跨部门协调 |
| 现有制度整合 | 利用现有法律框架 | 高 | 可能存在监管空白 |
7.4 正确的治理方向
AI------换句话说,计算------是社会的产物,而不是相反。当前的治理范式正在制定专门的AI法律法规,这错过了目标。AI不是一个可以被隔离和监管的"东西"。它是计算、软件、数据和网络的组合,因此涉及信息的所有方面,从而涉及社会的所有方面。嵌入在美国行政命令中的当前想法是,如果你控制AI的设计并以"安全"的名义监管其生产,风险就可以被消除,就不会出错了。许多人认为你可以将治理"嵌入"技术中。这种方法完全搞反了。你需要关注的是用户和用途,而不是设计。设计将由用户和用途的激励决定。如果对AI有需求,如果社会的很大一部分发现它的特定应用有用,这些应用将被生产,无论它是否符合某些政府或某些末日论者的安全理念。计算机、芯片、数据和网络无处不在,各种将其应用于AI问题的应用已经存在。
大多数AI应用相对良性且范围有限。聊天机器人正在对我们在某些体裁中编写消息的方式以及我们教育和娱乐的方式产生实质性影响。这很有趣,但不威胁生命。它只是另一个计算机应用。计算机智能的新应用在过去40-50年中稳步发展。关注技术治理的政策制定者需要关注技术应用的背景以及特定于这些情况的风险和收益。医疗应用将有与执法应用完全不同的关注点。例如,在将集中式AI应用置于整个电网控制之前,我们需要提出并回答关于它将如何影响电网弹性、谁将承担故障责任、其对外部攻击的安全性以及将实现什么效率收益的问题。我们不会通过控制计算能力的分配或在AI模型投入使用前许可它们来回答这些问题。这些措施基于机器可能活过来并接管世界的错误前提。
AGI末日论
现实风险
AI治理问题
威胁模型
预防性监管
基于应用的治理
控制模型设计
监管数据来源
限制计算能力
医疗AI监管
执法AI监管
金融AI监管
集中权力风险
针对性风险缓解
8 真正的风险来源与治理建议
8.1 重新审视系统性风险
我们还需要对重大社会风险的来源更加现实。如果人工智能曾经成为对人类生命的系统性威胁,那不会是因为一种新的网络终结者种族从计算机科学实验室自发出现。它最可能来自民族国家之间军事冲突引发的军备竞赛,其中一个国家行为体对霸权的追求使其对另一个国家行为体公民的伤害漠不关心。一些威胁肯定来自糟糕的实施和糟糕的设计,一些来自对其能力的犯罪利用。但无论风险是什么,在所有情况下,是人类而不是AI产生威胁。这些威胁都不构成人类灭绝的风险,除非人类自己追求人类灭绝的目标。战争是唯一一个合理结果的场景。
政治和军事权力的制度化竞争是最大的威胁。每个国家将以最符合自身利益的方式利用和发展人工智能,由于国家业务是维持对武力使用的垄断,人类政府武装力量之间对AI能力的失控竞争是我们需要警惕的。具有讽刺意味的是,AI末日场景通过暗示AGI发展将产生全能的权力来强化这一风险。这只会鼓励政府将其视为未来的武器并寻求对其的独家控制。
政治军事竞争是否会导致社会危害,不取决于机器进化,而取决于社会进化------即我们如何构建我们的互动。更多的进步可能来自正确治理全球贸易,以及避免民族国家之间的国际冲突,而不是来自对计算技术设计和分配的微观干预。
8.2 地缘政治与AI发展
通过脱钩其数字生态系统,美国和中国正在助长将把数字技术推向威胁道路的竞争。我们正在背弃全球互联、可互操作的数字生态系统的经济和社会效益。我们忽视了它对合作、和平与繁荣的贡献。在地缘政治分裂的数字生态系统中,ICT不再是全球通信、合作和商业的手段,而是一种武器。事实上,所有信息系统都变成了武器。社交媒体、数据、应用程序、网络、半导体,甚至电池和电动汽车都被纳入国家安全国家的服务。AI和网络物理系统的敌对和破坏性应用的发展更有可能来自军事对AI"霸权"的竞争,而不是某种自我生成、自我复制的超级智能。长期危险不是AI技术本身,而是其发展和供应链被纳入地缘政治竞争和国家控制的武器系统的方式。
8.3 治理建议的核心要点
本文的核心论点可以总结为以下几点:首先,AGI概念本身存在根本性的理论缺陷,"通用智能"缺乏科学定义,机器智能与生物智能存在本质区别。其次,AGI威胁论依赖的三个关键假设------通用智能、机器自主性和无限权力------都是缺乏实证支持的幻想。第三,当前基于AGI末日论的治理方案要么不可行,要么会导致权力集中和创新扼杀。最后,真正的AI风险来自人类的使用和滥用,特别是地缘政治竞争驱动的军事化应用。
因此,正确的治理方向应该是:关注具体应用场景而非技术设计本身;利用和整合现有的法律和制度框架;促进国际合作而非脱钩竞争;将责任归于人类决策者而非想象中的自主机器。
| 风险类型 | 来源 | 可能性 | 治理重点 |
|---|---|---|---|
| AGI灭绝风险 | 假设的自主机器 | 极低 | 无需特别关注 |
| 军事AI风险 | 国家间竞争 | 中等 | 国际军控协议 |
| 犯罪滥用风险 | 恶意行为者 | 较高 | 执法能力建设 |
| 设计缺陷风险 | 工程失误 | 中等 | 行业标准规范 |
| 社会影响风险 | 广泛应用 | 高 | 针对性监管 |
9 结论与反思
9.1 破除AGI神话的必要性
本文通过对AGI相关文献的系统审视,揭示了AGI末日论场景背后的三个核心谬误。这些谬误相互关联、相互强化,共同构建了一个看似合理但实际上缺乏科学基础的威胁叙事。第一个谬误是"通用智能"概念本身的问题------没有科学定义,唯一的参照物是人类智能,而人类智能的通用性源于生命本身的生存需求,机器并不具备这种需求。第二个谬误是拟人化思维------将自主目标、欲望和自我保存动机归因于人类制造的机器,这是一种概念上的跳跃,缺乏任何实证或理论基础。第三个谬误是全能假设------认为卓越的计算智能自动转化为对物质资源和社会制度的无限控制权,这忽略了物理世界的复杂约束。
破除AGI神话对于正确的数字治理至关重要。基于错误威胁模型的治理方案不仅无法解决真正的问题,还可能产生负面后果。预防性监管可能导致权力集中、创新受阻;"暂停AI"方案则完全不切实际。更重要的是,AGI神话通过将责任归咎于想象中的自主机器,实际上为人类决策者提供了逃避责任的借口。
9.2 对AI研究与实践的启示
本文的分析对AI研究和实践有重要启示。首先,AI安全研究应该关注现实的风险而非想象的威胁。对齐问题确实存在,但它是一个普遍存在于所有人类-智能体互动中的问题,而非AI特有的生存威胁。其次,AI治理应该基于具体应用场景而非抽象的技术设计。医疗AI、执法AI、金融AI面临的风险各不相同,需要针对性的监管方案。第三,国际合作比技术脱钩更能促进AI的安全发展。地缘政治竞争驱动的AI军事化才是真正需要警惕的风险。
最后,我们需要认识到,技术本身不是威胁的来源,人类的选择和行为才是。AI的发展方向取决于我们如何设计、部署和使用它。将注意力从想象中的AGI威胁转移到现实的人类决策和制度安排上,是确保AI安全发展的正确路径。
AGI神话批判
概念困境
通用智能无定义
机器非生命体
目标源于人类
自主性谬误
机器不会进化
对齐问题普遍存在
人类可干预纠正
全能假设
忽略物理约束
效应器从何而来
资源获取受限
治理启示
关注具体应用
利用现有制度
促进国际合作
人类承担责任
参考文献
1\] Mueller, M. (2024). The Myth of AGI: How the illusion of Artificial General Intelligence distorts and distracts digital governance. IGP White Paper #11. \[2\] Bostrom, N. (2003). Ethical Issues in Advanced Artificial Intelligence. In Cognitive, Emotive and Ethical Aspects of Decision Making in Humans and in Artificial Intelligence. \[3\] Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford University Press. \[4\] Good, I. J. (1965). Speculations concerning the first ultra-intelligent machine. Advances in Computers, 6, 31-88. \[5\] Turing, A. M. (1950). Computing Machinery and Intelligence. Mind, 49, 433-460. \[6\] Ngo, R., Chan, L., \& Mindermann, S. (2022). The alignment problem from a deep learning perspective. arXiv preprint arXiv:2209.00626. \[7\] Omohundro, S. M. (2008). The basic AI drives. In Artificial Intelligence Safety and Security. Chapman and Hall/CRC. \[8\] Hadfield-Menell, D., et al. (2017). The Off-Switch Game. AAAI-17 Workshop on AI, Ethics, and Society. \[9\] Sotala, K., \& Yampolskiy, R. V. (2015). Responses to catastrophic AGI risk: a survey. Physica Scripta, 90(1), 018001. \[10\] Phillips, S. (2017). Artificial General Intelligence: Concept, State of the Art, and Future Prospects. Journal of Artificial General Intelligence, 8(1), 1-10. \[11\] Vaswani, A., et al. (2017). Attention is All You Need. Advances in Neural Information Processing Systems, 30. \[12\] Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35.