Managing AI Risks in an Era of Rapid Progress

这是最近好多大佬共同署名的一篇文章，做个简单翻译。

快速发展时代的人工智能风险管理

摘要
AI的快速进步
社会规模风险
前进的道路
重新定位技术和研发
紧急治理措施

摘要

在这份简短的共识文件中，我们概述了即将推出的先进人工智能系统的风险。我们研究了大规模的社会危害和恶意使用，以及人类对自主人工智能系统控制的不可逆转的丧失。鉴于人工智能的快速和持续发展，我们提出了人工智能研发和治理的紧急优先事项。

AI的快速进步

2019年，GPT-2无法可靠地数到10。仅仅四年后，深度学习系统就可以编写软件，按需生成逼真的场景，就智力主题提供建议，并将语言和图像处理相结合来操纵机器人。当人工智能开发人员扩展这些系统时，不可预见的能力和行为会在没有明确编程的情况下自发出现。人工智能的进步是迅速的，对许多人来说，这是令人惊讶的。

进展的速度可能会再次让我们感到惊讶。目前的深度学习系统仍然缺乏重要的能力，我们不知道开发这些系统需要多长时间。然而，公司正在竞相创造在大多数认知工作中与人类能力相匹配或超过人类能力的多面手人工智能系统。

他们正在迅速部署更多的资源并开发新技术来提高人工智能的能力。人工智能的进步也使进步更快：人工智能助理越来越多地用于自动化编程和数据收集以进一步改进人工智能系统。

人工智能的进步在人类层面会放缓或停止，这并没有根本原因。事实上，人工智能已经在蛋白质折叠或战略游戏等狭窄领域超越了人类的能力。与人类相比，人工智能系统可以更快地行动，吸收更多的知识，并以更高的带宽进行通信。此外，它们可以扩展以使用巨大的计算资源，并可以被数百万人复制。

改进的速度已经惊人，科技公司有足够的现金储备，可以很快将最新的训练规模扩大到100到1000倍。结合人工智能研发的持续增长和自动化，我们必须认真对待在这十年或未来十年内，广义人工智能系统将在许多关键领域超越人类能力的可能性。

然后会发生什么？如果管理得当并公平分配，先进的人工智能系统可以帮助人类治愈疾病，提高生活水平，保护我们的生态系统。人工智能提供的机会是巨大的。但除了先进的人工智能能力之外，还有我们无法很好地应对的大规模风险。人类正在投入大量资源使人工智能系统更加强大，但在安全和减轻危害方面投入的资源要少得多。为了让人工智能成为一种福音，我们必须重新定位；仅仅推动人工智能能力是不够的。

我们已经落后于调整方向的计划。我们必须预见到持续危害和新风险的放大，并在最大风险出现之前做好准备。气候变化花了几十年的时间才得到承认和应对；对于人工智能来说，几十年可能太长了。

社会规模风险

人工智能系统可能会在越来越多的任务中迅速超越人类。如果这些系统没有经过精心设计和部署，就会带来一系列社会规模的风险。它们有可能扩大社会不公正，侵蚀社会稳定，削弱我们对社会基础现实的共同理解。它们还可能促成大规模犯罪或恐怖主义活动。特别是在少数强大的参与者手中，人工智能可以巩固或加剧全球不平等，或促进自动化战争、定制的大规模操纵和无处不在的监视。

随着公司正在开发自主人工智能：可以在世界上规划、行动和追求目标的系统，其中许多风险可能很快就会被放大，并产生新的风险。虽然目前的人工智能系统自主性有限，但改变这一点的工作正在进行中。例如，非自主GPT-4模型被快速调整为浏览网络、设计和执行化学实验，以及利用包括其他人工智能模型在内的软件工具。

如果我们构建高度先进的自主人工智能，我们就有可能创建追求不理想目标的系统。恶意行为者可能故意嵌入有害目标。此外，目前没有人知道如何将人工智能行为与复杂的价值观可靠地结合起来。即使是善意的开发人员也可能无意中构建出追求意外目标的人工智能系统------尤其是如果为了赢得人工智能竞赛，他们忽视了昂贵的安全测试和人类监督。

一旦自主人工智能系统追求恶意行为者或意外嵌入的不良目标，我们可能无法控制它们。软件控制是一个古老而未解决的问题：计算机蠕虫长期以来一直能够繁殖并避免被检测。然而，人工智能在黑客攻击、社交操纵、欺骗和战略规划等关键领域正在取得进展。先进的自主人工智能系统将带来前所未有的控制挑战。

为了推进不理想的目标，未来的自主人工智能系统可以使用不理想的策略------从人类那里学习或独立开发------作为达到目的的手段。人工智能系统可以获得人类的信任，获得财政资源，影响关键决策者，并与人类行为者和其他人工智能系统结成联盟。为了避免人为干预，他们可以像计算机蠕虫一样在全球服务器网络中复制算法。人工智能助理已经在全球范围内共同编写大量计算机代码；未来的人工智能系统可以插入并利用安全漏洞来控制我们通信、媒体、银行、供应链、军队和政府背后的计算机系统。在公开冲突中，人工智能系统可能会使用自主或生物武器进行威胁。人工智能获得这些技术只会延续现有的趋势，使军事活动、生物研究和人工智能开发本身自动化。如果人工智能系统以足够的技能来执行这样的策略，人类将很难进行干预。

最后，如果可以自由移交，人工智能系统可能不需要绘制影响图。随着自主人工智能系统变得越来越快，比人类工人更具成本效益，一个困境出现了。公司、政府和军队可能被迫广泛部署人工智能系统，并削减人工智能决策的昂贵人工验证，否则就有被击败的风险。因此，自主人工智能系统可以越来越多地发挥关键的社会作用。

如果没有足够的谨慎，我们可能会不可逆转地失去对自主人工智能系统的控制，使人类干预无效。大规模网络犯罪、社会操纵和其他突出危害可能会迅速升级。这种不受制约的人工智能进步可能会导致生命和生物圈的大规模丧失，以及人类的边缘化甚至灭绝。

错误信息和算法歧视等危害今天已经很明显了；其他危害也有出现的迹象。至关重要的是，既要解决持续的危害，又要预测新出现的风险。这不是非此即彼的问题。当前和新出现的风险通常具有相似的机制、模式和解决方案；对治理框架和人工智能安全的投资将在多个方面取得成果。

前进的道路

如果今天开发出先进的自主人工智能系统，我们将不知道如何使其安全，也不知道如何正确测试其安全性。即使我们这样做了，政府也将缺乏防止滥用和维护安全做法的机构。然而，这并不意味着没有可行的前进道路。为了确保取得积极成果，我们可以而且必须在人工智能安全和伦理方面取得研究突破，并迅速建立有效的政府监督。

重新定位技术和研发

我们需要研究突破来解决当今在创造具有安全和道德目标的人工智能方面的一些技术挑战。其中一些挑战不太可能通过简单地提高人工智能系统的能力来解决。其中包括：

监督和诚实：能力更强的人工智能系统能够更好地利用监督和测试中的弱点------例如，通过产生虚假但令人信服的输出。
鲁棒性：人工智能系统在新情况下（在分布变化或对抗性输入下）表现不可预测。
可解释性：人工智能决策不透明。到目前为止，我们只能通过试错来测试大型模型。我们需要学会理解他们的内在工作。
风险评估：前沿人工智能系统开发出只有在训练期间甚至部署后才能发现的不可预见的能力。需要更好的评估来尽早发现危险能力。
应对新出现的挑战：更有能力的未来人工智能系统可能会出现我们迄今为止只在理论模型中看到的故障模式。例如，人工智能系统可能会学会假装服从，或利用我们安全目标和关闭机制中的弱点来推进特定目标。

考虑到利害关系，我们呼吁主要科技公司和公共资助者将其人工智能研发预算的至少三分之一用于确保安全和合乎道德的使用，与他们对人工智能能力的资助相当。解决这些问题，着眼于强大的未来系统，必须成为我们领域的核心。

紧急治理措施

我们迫切需要国家机构和国际治理来执行标准，以防止鲁莽和滥用。从制药到金融系统和核能，许多技术领域都表明，社会需要并有效地利用治理来降低风险。然而，目前还没有可比的人工智能治理框架。如果没有这些框架，公司和国家可能会通过将人工智能能力推向新的高度，同时在安全方面偷工减料，或者通过将关键的社会角色委派给人工智能系统来寻求竞争优势，而几乎没有人为的疏忽。就像制造商为了降低成本而将废物排入河流一样，他们可能会被诱惑去收获人工智能发展的回报，同时让社会来处理后果。

为了跟上快速发展的步伐，避免法律僵化，国家机构需要强大的技术专长和迅速采取行动的权力。为了应对国际种族动态，他们需要为国际协议和伙伴关系提供便利。为了保护低风险的使用和学术研究，他们应该避免为小型和可预测的人工智能模型设置过度的官僚障碍。最紧迫的审查应该是对前沿人工智能系统的审查：少数最强大的人工智能系统------在价值数十亿美元的超级计算机上训练------将具有最危险和最不可预测的能力。

为了实现有效的监管，各国政府迫切需要对人工智能的发展有全面的了解。监管机构应要求模型注册、举报人保护、事件报告以及对模型开发和超级计算机使用的监控。监管机构还需要在部署前访问先进的人工智能系统，以评估它们的危险能力，如自主自我复制、侵入计算机系统或使大流行病原体广泛可用。

对于具有危险能力的人工智能系统，我们需要一种与其风险大小相匹配的治理机制的组合。监管机构应根据模型能力制定国家和国际安全标准。他们还应该让前沿人工智能开发人员和所有者对其模型造成的伤害承担法律责任，这些伤害是可以合理预见和预防的。这些措施可以防止伤害，并为安全投资创造急需的激励措施。未来的人工智能系统需要进一步的措施，比如可以绕过人类控制的模型。各国政府必须准备好许可其开发，暂停开发以应对令人担忧的能力，强制实施访问控制，并要求对州级黑客采取强有力的信息安全措施，直到准备好足够的保护措施。

为了在法规到位之前缩短时间，主要的人工智能公司应该立即制定"如果-然后"的承诺：如果在其人工智能系统中发现特定的红线能力，他们将采取具体的安全措施。这些承诺应予以详细和独立审查。

人工智能可能是塑造本世纪的技术。尽管人工智能能力正在快速发展，但在安全和治理方面的进展却落后了。为了引导人工智能走向积极的结果，远离灾难，我们需要重新定位。如果我们有智慧，就有一条负责任的道路。