企业应将三成AI预算用于管理安全风险

本周二，科大讯飞因AI内容安全事件导致股价暴跌，同时也给野蛮生长的生成式人工智能行业敲响了警钟。

今天，基于大语言模型的生成式人工智能的安全风险已经从担忧变成现实，黑客只需要通过一些"有毒内容"，或者发布几个恶意网页和图片，就能控制甚至扰乱最先进的大型语言模型应用。与此同时，由于生成式AI与生俱来的"黑匣子"特性，伴随"AI军备竞赛"快速成长的自主AI系统越来越难以监管，随时有可能失控并带来灾难性后果。

人工智能安全预算占比不应低于三分之一

近日，两位人工智能教父级人物Yoshua Bengio和Geoffrey Hinton联合其他22位知名人工智能学者和专家（其中包括三位清华大学学者）提出了一个AI政策和治理框架议案，旨在解决人工智能日益增长的风险。

"AI产生的错误信息和算法歧视等危害如今已经很明显，其他危害也有出现的迹象，解决持续危害和预测新出现的风险至关重要。"提案强调："如果没有足够的谨慎，我们可能会不可逆转地失去对自主人工智能系统的控制，从而导致人类干预失效。大规模网络犯罪、社会操纵和其他突出危害可能会迅速升级。这种不受控制的人工智能进步可能最终导致大规模生命和生物圈的丧失，乃至人类的边缘化甚至灭绝。"

该提案明确指出：

企业和政府应将至少三分之一的人工智能研发预算用于人工智能安全，并强调了人工智能安全工作的紧迫性。

该提案引起了全球人工智能产业和监管部门的格外重视，因为人工智能安全峰会下周即将在英国布莱切利公园将举行，届时国际政界人士、技术领袖、学者和产业人士将齐聚一堂，讨论如何监管人工智能风险。

人工智能的五项紧急安全治理措施

提案呼吁，开发人工智能的大型私营企业以及政府政策制定者和监管机构采取以下五个特别行动：

公司和政府应将至少三分之一的人工智能研发预算用于确保安全和合乎道德的使用，这与他们对人工智能能力的投入相当。
政府迫切需要全面了解人工智能的发展。监管机构应要求模型注册、举报人保护、事件报告以及模型开发和超级计算机使用的监控。
在部署之前，监管机构应有权访问先进的人工智能系统，以评估其危险功能，例如自主复制、闯入计算机系统或使大流行病病原体广泛传播。
监管机构应根据模型功能制定国家和国际安全标准，政府还应该让"前沿人工智能"的开发商和所有者对其模型造成的可合理预见和预防的损害承担法律责任。
对于有危险能力的AI系统，政府必须准备好许可某些人工智能开发，必要时暂停开发以应对令人担忧的能力，强制执行访问控制，并要求对国家级黑客采取强有力的信息安全措施，直到准备好足够的保护措施。

Bengio和Hinton都是人工智能领域的知名专家，面对不断增长的风险，他们加大了对人工智能安全的呼吁力度。（但这些呼吁遭到了另一位著名人工智能领袖Yann Lecun的反对，他认为当前的人工智能风险不需要如此紧急的措施。）

人工智能安全面临五大关键技术挑战

过去几年，随着科技公司专注于开发人工智能技术，"安全第一"的呼声已经被淹没，但随着新的强大功能的出现，业界的态度正趋于谨慎。该提案的其他合著者包括学术和畅销书作家尤瓦尔·诺亚·哈拉里(Yuval Noah Harari)、诺贝尔经济学奖获得者丹尼尔·卡尼曼(Daniel Kahneman)和著名人工智能研究员杰夫·克鲁恩(Jeff Clune)。上周，另一位人工智能领袖穆斯塔法·苏莱曼(Mustafa Suleyman)与其专家提议设立一个类似国际气候变化专门委员会(IPCC)的人工智能安全组织，以帮助制定相关协议和规范。

AI政策和治理框架提案重点关注了那些正在开发自主人工智能或"可以在世界上规划、行动和追求目标的系统"的公司所带来的风险。虽然当前的人工智能系统的自主权有限，但改变这一现状的工作正在进行中。"该论文称。

提案指出，Open AI提供的尖端GPT-4模型可用于浏览网页、设计和执行化学实验以及利用软件工具（包括其他AI模型）。像AutoGPT这样的软件程序已经被创建来自动化此类人工智能流程，并允许人工智能在没有人工干预的情况下继续完成任务。

提案称，这些AI自主系统存在失控的巨大风险，而且没有办法对其进行控制。

"如果我们开发高度先进的自主人工智能，我们就有可能开发出追求不良目标的系统。恶意行为者可能会故意嵌入有害目标。"

提案指出，**目前没有人知道如何可靠地将人工智能行为与复杂的人类价值观结合起来。**即使是善意的开发人员也可能会无意中开发出追求意想不到目标的人工智能系统------特别是当他们为了赢得人工智能竞赛而忽视了昂贵的安全测试和人类监督。

提案还呼吁业界推进研究突破，以解决人工智能安全和道德面临的五大关键技术挑战：

**监督和诚实：**能力更强的人工智能系统更善于利用监督和测试中的弱点------例如，产生虚假但令人信服的输出来欺骗测试；
**鲁棒性：**人工智能系统在新情况下（在分布转移或对抗性输入下）表现不可预测；
**可解释性：**人工智能决策是不透明的。到目前为止，我们只能通过反复试验来测试大型模型，我们需要学会理解它们的内部运作；
**风险评估：**先进人工智能系统会开发出不可预见的功能，这些功能只有在训练期间甚至部署后才发现。需要更好的评估以更早地发现危险能力；
**应对新风险：**未来能力更强的人工智能系统可能会表现出迄今为止仅在理论模型中出现的故障模式。例如，人工智能系统可能会学习假装服从或利用安全控制机制的弱点来实现特定目标。