姚期智、张亚勤、薛澜、Stuart Russell、Max Tegmark，DeepMind研究员等共话全球AI治理丨大会回顾...

为什么AI安全已迫在眉睫？如何构建全球范围内的合作？民众该如何参与到其中？未来的AI系统将是什么样的？

2024年6月15日，智源大会第二天，多位AI安全领域专家进行圆桌讨论，连接中国北京和美国加利福尼亚，共同探讨如何构建可控AI，建立全球范围内合作。

**这次AI安全论坛由北京智源人工智能研究院与加州的非营利组织AI安全国际论坛（Safe AI Forum）和FAR AI共同举办。**AI安全国际论坛致力于促进全球范围内的AI治理合作，旨在促进科学共识以应对AI带来的极端风险，造福人类。今年三月，智源与AI安全国际论坛举办的AI安全国际对话，提出针对风险应建立"红线"，得到广泛响应。FAR AI专注于孵化和推动AI安全研究，其研究领域包括对抗性鲁棒性、可解释性和偏好学习。

圆桌论坛主持人：

Saad Siddiqui，Safe AI Forum (SAIF) 人工智能治理研究员

圆桌讨论现场嘉宾分别为：

图灵奖得主，中国科学院院士，姚期智先生；

智源学术顾问委员，清华大学智能产业研究院院长，张亚勤教授；

清华大学资深文科教授，苏世民学院院长，薛澜教授；

以及线上与CHAI连线的三位专家：

加州大学伯克利分校教授 Prof. Stuart Russell

MIT人工智能与基础交互研究中心教授，未来生命研究所创始人, Prof. Max Tegmark

Google DeepMind前沿安全与治理主任，Prof. Allan Dafoe

以下是AI安全论坛圆桌讨论的实录↓

*论坛嘉宾表达的观点仅代表个人意见，并不反映其所在雇主或相关组织的观点或意见

主持人提问：各位嘉宾是如何开始关注AI安全的，现阶段最关心的是什么？

**姚期智：**我第一次对人工智能安全问题产生兴趣是在2019年。当时，Stuart Russell教授在清华大学进行了一次人工智能讲座，他的书《Human Compatible》刚刚出版。他的演讲和书中内容让我深刻意识到人工智能快速发展中的潜在风险。讲座后，我与Russell教授进一步探讨了这个新兴研究领域的吸引力和重要性。五年后，全球对这些风险的认识已达成共识，现在我们必须考虑如何在AI迅速进步的同时，管理和缓解这些风险。最关键的问题是，我们如何与可能远比我们聪明的AI共存，而不被其控制。

**Stuart Russell：**我从事人工智能领域已经48年了，我一直以来的追求是为了让人工智能系统更有能力。1994年，我在撰写教科书时首次提出一个关键问题："如果我们成功了会怎样？"这一问题提示我们要对技术进步的潜在影响保持警觉。到了2012年，我开始更深入地探讨人工智能的治理问题，意识到如果AI发展到极致，我们可能会失去控制，让AI追求与人类利益不一致的目标。

我意识到我们需要重新考虑与AI的关系，确保AI的唯一义务是促进人类的利益。这涉及到一些复杂的技术和道德哲学问题，需要全球合作来解决。如今，这些问题的严重性已被全球认可，这不再是边缘议题，而是紧迫的现实问题。

**张亚勤：**这些年来，我一直在从事AI机器学习工作，将其应用于微软和百度的行业问题。2016年1月，在达沃斯的一个特别AI小组讨论中，我曾非常乐观。当提到AI安全时，我觉得没什么好担心的，我们需要更关注于创新而非监管。2018年初，我们的阿波罗工程师修改了卷积编码器的一些模型参数，将停车标志错误地更改为每小时50英里的标志，还通过GPS干扰导致汽车改变行驶方向，这让我开始关注AI安全。随着GPT-3.0和ChatGPT的出现，这一问题变得更为紧迫。

**2020年，我从百度退休后来到清华大学，成立了智能产业研究院，秉持3R原则:Responsive(积极响应)、Resilient(适应发展)、Responsible(坚守价值)。**这些原则确保我们所做的对社会需求有所响应，如安全驾驶、能源效率提升和医疗健康。我们的技术和算法需要足够稳健透明，且能抵御安全攻击。

随着大模型的应用，风险逐渐放大，涉及信息领域的深度伪造技术和大模型幻觉问题，物理领域的自动驾驶和机器人安全，以及生物领域的脑机接口等高风险领域。去年，我与几位嘉宾共同建立了"国际AI安全对话"平台，已在英国举行首次会议，今年三月在北京BAAI举行了第二次，计划在维也纳举行下一次会议，呼吁AI技术人员和政策制定者马上行动。

**Max Tegmark：**我一直非常关注这个问题，多年来我一直在思考80亿人类在这个宏伟宇宙中的位置及其意义。我们历史上不仅一次又一次地低估了自己居住的物理世界的广阔，如太阳系、星系等，更低估了人类理解世界的潜力。我们没有充分认识到自己通过科学探索世界的能力，以及利用科学技术改善生活的可能性。技术本身并无善恶，它是一种工具，取决于我们如何使用。随着科技越来越先进，我们从过去的错误中学习的传统方法已不再适用，因为技术强大到一旦出错后果不堪设想，如核战争或超级智能失控。因此，我们必须转变思维，从被动应对转为主动预防，避免不可挽回的错误发生。

这种安全工程是非常重要的，比如NASA和中国航天局在发射载人航天任务时，会系统地预测所有可能的错误，以确保安全。这种做法让我们能够成功预防问题，确保事情顺利进行。温斯顿·丘吉尔曾说，我们从历史中学到的唯一教训是我们从未从历史中学到任何东西。但我对此比较乐观，我相信我们可以从历史中学到低估指数增长技术的巨大风险的教训。目前全球正在低估AI技术的指数级增长，这可能是历史上最重要的技术革命。我们必须认识到，技术带来的威胁不仅来自其他国家的使用，而更多是技术本身的潜在风险。如果技术构建不当，最终所有人都可能成为输家。因此，我们需要全球合作，确保不低估这种增长的指数级，共同努力确保技术帮助实现全球共享的积极愿景，而不是被机器所取代。

**薛澜：**作为苏世民学院院长，我有必要再介绍苏世民学者项目。该项目致力于培养能跨文化构建桥梁的全球领导者，解决全球性问题。我在卡内基梅隆大学攻读工程与公共政策博士学位期间，就接触到了AI领域和机器人技术的社会影响研究。我的工作始终关注技术的正面效应和潜在风险。2015或2016年，我参与了中国关于AI发展的政策讨论，提出了关注社会影响和风险治理的必要性，这一观点也反映在中国2017年制定的AI发展政策。随着AI技术的快速普及，例如ChatGPT短时间内达到亿级用户，我更加关注安全和风险管理，并认为国际合作在应对全球AI挑战中至关重要。这不仅是任何单一国家的问题，而是全人类共同的挑战。

**Allan Dafoe：**2000年，我阅读了雷·库兹韦尔的《精神机器时代》，开始意识到人工智能的重要性。书中描绘了一个显示计算性能与成本随时间变化的早期曲线，通过摩尔定律预示着人工智能未来可能超越人类能力。尽管这种未来充满希望，但确保其风险是一个挑战。随后我转向国际关系研究，因为我认为科技和国际关系是塑造文明轨迹的两大力量。

我经常提醒人们人工智能将会到来，当他们显示出足够的关注，我会指出机器在围棋这种完全信息游戏中仍不如人类。直到2016年Google和DeepMind推出AlphaGo后，我意识到这是一个警告，我开始思考人类在必须真正应对人类水平的人工智能之前还有多少时间。我转而全职从事AI治理和安全工作，与前沿安全团队合作开发危险能力的评估，其中涉及大型语言模型中的生物学知识、网络攻击能力及AI自主复制能力。

这是一个新兴领域，需要大量的国际合作来定义和管理这些风险。我希望我们能够应对一个新生命形式的到来，这种新物种可能在技术和政治上影响我们的世界，我们需共同努力确保该技术对人类是有益的。

北京对话加利福尼亚

Q1.姚期智：我想向在加州的同事提问，考虑到我们需要将AI安全建立为一个学术领域以应对长远的复杂问题，我们该如何起步？我作为密码学家，常思考与网络安全的类比。网络安全已经是一个庞大的领域，通过建立理想模型来模拟现实，虽不完美，但极有助于我们的研究。我们能否为人工智能安全建立类似的基础科学工具？

**Allan Dafoe：**我将继续讨论评估AI危险能力的领域，这个领域仍然非常新，我们刚开始制定可理解并可信的评估方法。我们需要在行业内乃至全球范围内就这些标准达成共识。因此，与中国科学家合作并加入国际AI安全研究所，并开展对话将是非常有益的，该研究所正试图为不同的风险制定标准。这不仅影响通过API部署的大型语言模型，尤其是对开放权重的模型。西方国家正在趋向一种规范，即开放权重模型需要在发布模型权重之前，完成更高标准的责任制和安全评估。因此，与中国科学家一同参与这些讨论将非常重要。

**Stuart Russell：**我认为，监管机构有效管理开源AI生态系统至少需要两项措施：一是开源系统必须注册，确保监管机构知道其存在；二是监管机构能够在这些系统行为不当时将其关闭。这需要我们找到在开源系统中加入不可移除的注册和关闭代码的方法。

此外，我们可能需要通过同态加密来确保整个系统的安全，虽然这可能不太现实。我们也许需要一种轻量级的加密方案来实现不可移除的开关，以控制开源系统。另一方面，如何处理由激励驱动的实体和协助实体的系统两者之间的关系。我们才刚开始探索这个领域，博弈论和经济学对此可能有很大的贡献。我们面临的挑战是如何确保数十亿个AI系统在不相互干扰的情况下协作，我们需要建立数学模型来解决这些问题，并思考这些系统如何在不损害彼此利益的情况下运作。这是一个新的研究领域，需要我们从基础做起，建立理论基础。

Q2.Max Tegmark：我想向我们在太平洋彼岸的同事提一个问题，这是关于Allan提到的AI安全研究所的。正如我在演讲中提到的，我们现在已有十个国家迅速成立了人工智能安全研究所。可能在十月，所有人工智能安全研究所将在加利福尼亚举行首次会议，这将是一个讨论这些问题及更多问题的绝佳机会，也是一个在人工智能安全领域共同合作的技术机会。但我很遗憾中国还未在这个名单上，因为中国还没有人工智能安全研究所。我的问题是，你们如何能尽快宣布你们也有人工智能安全研究所，以便在这个组织正式成立并停止接受新成员之前获得邀请。

**张亚勤：**我们注意到中国已经在人工智能安全领域开展了许多活动，并希望参与更广泛的国际对话。我们对AI安全研究所有很大的兴趣，但我们需要了解更多细节，如这是政府间还是非政府间组织。

**Max Tegmark：**各国设立方式不同，可以是学术机构或政府实验室。但关键是必须有国家级授权，并得到中国政府的支持，明确这个实体是唯一获授权与其他人工智能安全研究所交流的机构。这样，国际社会才知道应联系谁，向谁发出邀请。

**薛澜：**我理解你们的观点，目前英国，澳大利亚，新加坡等国已设立了人工智能安全研究所。正如所提到的，中国有许多机构正在开展人工智能安全研究，但关键在于这些研究所将扮演何种角色。一方面，它们可能需要担任协调安全研究的角色，这需要政府设立一定的协调机制。另一方面，这些机构还可以设定标准和进行测试，类似于美国国家标准与技术研究院（National Institute of Standards and Technology，NIST）的功能。此外，研究所还可以开展广泛的研究。据我所知，中国正在讨论建立此类国家中心，但具体角色和结构取决于其应扮演的功能。

**姚期智：**在中国，"国家（National）"一词一般具有官方含义。如果不使用这个词，可能会更方便成立一个能实际协调该领域的研究机构。如果可行，这在中国将更易于实施。

Q3.黄铁军：正如姚教授所说，"国家"在中国指的是官方机构。请问目前该机构，是由政府正式授权的国家研究所，还是自行宣布成立的？

**Max Tegmark：**它位于科罗拉多州的美国国家标准与技术研究院（National Institute of Standards and Technology，NIST）。其任务是进行人工智能安全研究，制定有意义的标准，并与全球进行合作。我认为这些工作完全可以由学术机构内部完成，但需要得到外交部或其他政府部门的支持，以避免像在中国形成多个竞争的人工智能安全研究所的情况。

目前时间紧迫，因为参加十月会议的机会窗口正在迅速关闭。理想情况下，应当尽快提供联系人，之后还有几个月时间来细化具体细节。过度担忧是不必要的，因为中国已有的AI安全技术研究远超多数设有研究所的国家。重要的是让世界看到他们可以联系的实体，即使细节还未完全确定，只要明确了联系方式即可。

**黄铁军：**但四周时间对于政府批准一个新研究所来说真的非常短。但我个人认为，从一个委员会开始，由政府批准的几人小组来筹划构建研究所，是有可能的。

**薛澜：**实际上，全球人工智能治理，尤其是人工智能安全，是一个引人注目的问题。人工智能研究所的构想可能类似于联合国政府间气候变化专门委员会（Intergovernmental Panel on Climate Change，IPCC）模式，即每个国家的技术机构作为协调体进行研究和协调，共同提供技术可行的建议。除此之外，还可能采用其他模式，例如国际原子能机构（International Atomic Energy Agency，IAEA）模式，通过各国合作解决安全问题。这些广泛的议题目前正在联合国秘书长指定的专家小组讨论之中，这可能是一个机会进一步阐明全球社区的意愿和接受度。

**张亚勤：**在人工智能安全研究中存在许多数学和科学问题，如安全性和信任度。我们需要创造一个无障碍的环境，让我们的学生和科研人员能够合作。目前我有一个具体的问题：有学生因签证未能及时发放而无法参加第十届国际会议。我们如何确保我们的科学家和学生能在人工智能安全研究领域自由地合作，并进行开放的讨论？

**Stuart Russell：**我认为如果美国和中国在人工智能安全领域的合作被公认许可，这应有助于简化签证发放流程。近年来，人工智能被视为地缘政治的争议点，这对双方合作解决问题非常不利。

观众提问1：如何让公众参与并在关于AI安全方面的讨论做出努力？为促进全球范围内合作该怎样做出努力？

**Stuart Russell：**公众参与核安全或AI安全的技术细节可能并不十分重要。我们面临的一个主要问题是，积极的共存应该是什么样子？如果我们能够解决安全问题，AI系统能否像姚教授所说，推动数学和科学的新成果，带来经济转型，使我们的生活更加便捷？这是否能创造出我们希望子孙后代生活的文明？因此，我很想了解中国人民对未来应该是什么样的看法。

我知道，当我让经济学家、科幻作家、未来学家和人工智能研究员描述这样一个积极的未来愿景时，他们发现这非常困难。因此，我认为公众应该参与进来，因为他们将是与这些技术共存的人。如果他们无法描述这样的愿景，也许我们应该停下来思考。

**Max Tegmark：**关于如何在极短期内促进国际合作，我建议在中国成立一个人工智能安全研究所，以促进国际合作。可以与上海人工智能实验室以及其他相关研究机构进行非正式对话，建立一个协调机制。我们也将努力说服其他安全研究所邀请中国参加首次会议。

**薛澜：**感谢Tegmark关于与其他国内机构进行协调的建议，我认为与公众进行像这样的研究会活动，真正进行讨论和对话，让人们了解并关注这类问题，可能是最好的方式。

AI安全涉及许多技术问题，可能并不是与公众讨论的最佳场所。但同时，在技术界，我们应该更多地讨论和审议，如何最好地防范潜在风险，以及技术前进的途径。

我认为在技术应用方面，存在更广泛的问题。不同社会对成本和收益的看法可能不同，因此与公众的互动显得尤为重要。例如，斯坦福人工智能报告指出，70%的中国公众认为AI带来更多好处，而美国仅有约30%的人这么认为。这种差异实际上会影响特定AI技术的应用。因此，在制定具体法规之前，我们可能需要广泛听取公众的意见。

最后，我想补充一点，我们在考虑公众意见时，不应仅限于中国或美国的公众，而应包括许多其他国家的公众。许多发展中国家对理解AI技术对未来发展和人类社会的影响都非常感兴趣。如何让这些国家的人参与到讨论中，这是一个更具挑战性的问题，需要我们深思。

**Allan Dafoe：**公众参与的一个具体领域涉及群体对齐，有时也称为多元对齐或社会选择理论。另一个研究方向是关于AI在群体决策中的应用，即如何帮助群体更好地做出内部决策。我认为还有许多开放问题需要解决，我们将不遗余力地朝这些目标努力。

观众提问2：关于GPT系列的发展：从GPT到GPT-2标志了架构设计的突破，GPT-2到GPT-3代表了参数规模的飞跃。GPT-3.5通过人类反馈的强化学习改进了微调过程，而GPT-3.5到GPT-4则引入了多模态能力和GPT Store这样的社区生态系统的建立。未来的下一个重大突破可能是什么？

**姚期智：**我希望人工智能能在数学或计算机科学领域做出重要的原创研究。尽管这看似不可能，但通过图灵测试当初也被视为不可能。斯图尔特曾提到这可能需要5年、50年甚至100年。因此，我相信这不是不可能的梦想，但实现它将需要一些重大的质的突破。当这一天到来时，它将使我们处理人工智能安全的紧迫感更加强烈。

**张亚勤：**在未来的五到十年里，虽然许多事情都将发生变化，但有三点可能会保持不变：统一的特征表示、模型扩展定律以及端到端的训练推理。我希望会有新的架构出现，能够极大提高效率，目前模型消耗了大量的计算能力和电力。

另外，我们需要更多强化学习，能够与环境和人类进行交互学习，建立世界模型。我同意姚教授的观点，在未来我们不仅能验证现有的数学方程，还能推翻尚未验证的假设。我相信在某个时刻，AI将能够创造新的物理和数学定律与方程。我是乐观主义者，我认为50年后我们看待今天的人类，就像我们看待石器时代人类一样。人类的进化已经加速，蒸汽机的发明、工业革命引起了物理层面的变革，现在是智能的发展。因此，未来人类将是人类智慧与AI的结合体，这将是美好的。我不认为AI会取代人类，我们只是加速整个进化过程。