安全AI系统开发指南

执行摘要

本文件建议为使用人工智能（AI）的任何系统的提供商提供指导方针，无论这些系统是从头开始创建的，还是建立在他人提供的工具和服务之上的。实施这些指导方针将有助于提供商构建按预期运行、在需要时可用的人工智能系统，并且在不向未经授权的方透露敏感数据的情况下工作。

本文档主要针对使用组织托管的模型或使用外部应用程序编程接口（API）的人工智能系统提供商。我们敦促所有利益相关者（包括数据科学家、开发人员、管理人员、决策者和风险所有者）阅读这些指南，帮助他们就人工智能系统的设计、开发、部署和运营做出明智的决定。

关于指南

人工智能系统有潜力为社会带来许多好处。然而，对于人工智能的机会必须以一种安全和负责任的方式开发、部署和运行它。

人工智能系统存在新的安全漏洞，需要与标准的网络安全威胁一起考虑。当发展速度很快时------就像人工智能的情况一样------安全往往是次要考虑因素。安全性必须是一个核心需求，不仅在开发阶段，而且在系统的整个生命周期中都是如此。

因此，该指南在人工智能系统开发生命周期内分为四个关键领域：安全设计、安全开发、安全部署以及安全运维。对于每一节，我们都提出了有助于降低组织人工智能系统开发过程总体风险的考虑因素和缓解措施。

1.安全设计

本节包含适用于人工智能系统开发生命周期设计阶段的指南。它涵盖了对风险和威胁建模的理解，以及在系统和模型设计中需要考虑的特定主题和权衡。

2.安全开发

本节包含适用于人工智能系统开发生命周期开发阶段的指南，包括供应链安全、文档以及资产和技术债务管理。

3.安全部署

本节包含适用于人工智能系统开发生命周期部署阶段的指南，包括保护基础设施和模型免受损害、威胁或损失、开发事件管理流程和负责任的发布。

4.安全操作和维护

本节包含适用于人工智能系统开发生命周期的安全操作和维护阶段的指南。它提供了关于系统部署后特别相关的行动的指导方针，包括日志记录和监测、更新管理和信息共享。

该指南遵循"默认安全"方法，并与NCSC的安全开发和部署指南、NIST的安全软件开发框架以及CISA、NCSC和国际网络机构发布的"设计安全原则"中定义的实践密切一致。他们优先考虑：

>为客户取得安全成果的所有权

>采用激进的透明度和问责制

>通过设计建立如此安全的组织结构和领导力是企业的首要任务

介绍

人工智能系统有可能给社会带来许多好处。然而，为了充分实现人工智能的机会，必须以安全和负责任的方式开发、部署和运营人工智能。网络安全是人工智能系统安全性、弹性、隐私性、公平性、有效性和可靠性的必要前提。

然而，人工智能系统存在新的安全漏洞，需要与标准的网络安全威胁一起考虑。当发展速度很快时------就像人工智能的情况一样------安全往往是次要考虑因素。安全性必须是一个核心需求，不仅在开发阶段，而且在系统的整个生命周期中都是如此。

本文件为使用人工智能的任何系统的提供商推荐了指南，无论这些系统是从头开始创建的，还是建立在他人提供的工具和服务之上的。实施这些指导方针将有助于提供商构建按预期运行、在需要时可用的人工智能系统，并且在不向未经授权的方透露敏感数据的情况下工作。

应结合既定的网络安全、风险管理和事件响应最佳实践来考虑这些指南。特别是，我们敦促提供商遵循美国网络安全和基础设施安全局（CISA）、英国国家网络安全中心（NCSC）和我们所有的国际合作伙伴制定的"设计安全"2原则。原则优先考虑：

>为客户取得安全成果的所有权

>采用激进的透明度和问责制

>通过设计建立如此安全的组织结构和领导力是企业的首要任务。

遵循"设计安全"原则需要在系统的整个生命周期中投入大量资源。这意味着开发人员必须投资于在系统设计的每一层以及开发生命周期的所有阶段优先考虑保护客户的功能、机制和工具的实施。这样做将防止以后进行昂贵的重新设计，并在短期内保护客户及其数据。

为什么人工智能安全不同？

在本文档中，我们使用"AI"专门指机器学习（ML）应用程序3。所有类型的ML都在范围内。我们将ML应用程序定义为以下应用程序：

>涉及软件组件（模型），允许计算机识别数据中的模式并将上下文引入数据中，而无需由人类明确编程规则

>基于统计推理生成预测、建议或决策

除了现有的网络安全威胁外，人工智能系统还存在新型漏洞。术语"对抗性机器学习"（AML）用于描述对ML组件（包括硬件、软件、工作流和供应链）中基本漏洞的利用。AML使攻击者能够在ML系统中造成意外行为，包括：

>影响模型的分类或回归性能

>允许用户执行未经授权的操作

>提取敏感模型信息

有很多方法可以实现这些效果，例如在大型语言模型（LLM）域中进行即时注入攻击，或者故意破坏训练数据或用户反馈（称为"数据中毒"）。

谁应该阅读这份文件？

本文档主要针对人工智能系统的提供商，无论是基于组织托管的模型还是使用外部应用程序编程接口（API）。然而，我们敦促所有利益相关者（包括数据科学家、开发人员、管理人员、决策者和风险所有者）阅读这些指南，帮助他们就机器学习人工智能系统的设计、部署和运营做出明智的决定。

也就是说，并非所有的指导方针都将直接适用于所有组织。攻击的复杂程度和方法将因针对人工智能系统的对手而异，因此应将该指南与组织的用例和威胁简介一起考虑。

谁负责开发安全的人工智能？

现代人工智能供应链中通常有许多参与者。一种简单的方法假设有两个实体：

>负责数据管理、算法开发、设计、部署和维护的"提供商"

>提供输入和接收输出的"用户"

虽然这种提供商-用户方法在许多应用程序中使用，但它越来越不常见，因为提供商可能希望将第三方提供的软件、数据、模型和/或远程服务合并到他们自己的系统中。这些复杂的供应链使最终用户更难理解安全人工智能的责任在哪里。

用户（无论是"最终用户"还是包含外部人工智能组件的提供商）通常没有足够的可见性和/或专业知识来完全理解、评估或解决与他们使用的系统相关的风险。因此，根据"设计安全"原则，人工智能组件提供商应对供应链下游用户的安全结果负责。

供应商应尽可能在其模型、管道和/或系统内实施安全控制和缓解措施，在使用设置的情况下，将最安全的选项作为默认选项。如果风险无法减轻，供应商应负责：

>通知供应链下游的用户他们和（如果适用）他们自己的用户正在接受的风险

>建议他们如何安全地使用组件

如果系统泄露可能导致有形或广泛的物理或声誉损害、业务运营的重大损失、敏感或机密信息的泄露和/或法律影响，人工智能网络安全风险应视为关键风险。

安全人工智能系统开发指南

该指南分为人工智能系统开发生命周期中的四个关键领域：安全设计、安全开发、安全部署以及安全运维。对于每个领域，我们都提出了有助于降低组织人工智能系统开发过程总体风险的考虑因素和缓解措施。

本文档中列出的指导方针与软件开发生命周期实践紧密一致

定义于：

>NCSC的安全开发和部署指南

>美国国家标准与技术研究所（NIST）安全软件开发框架（SSDF）

1.安全设计

|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 提高员工对威胁和风险的认识 系统所有者和高级领导了解人工智能安全的威胁及其缓解措施。您的数据科学家和开发人员保持对相关安全威胁和故障模式的认识，并帮助风险所有者做出明智的决策。您为用户提供有关人工智能系统面临的独特安全风险的指导（例如，作为标准InfoSec培训的一部分），并培训开发人员安全编码技术和安全负责的人工智能实践。 |
| 模拟系统面临的威胁 作为风险管理流程的一部分，您应用一个整体流程来评估系统面临的威胁，其中包括了解如果人工智能组件受到损害或出现意外行为，对系统、用户、组织和更广泛的社会的潜在影响7。这个过程包括评估人工智能特定威胁的影响8并记录您的决策。您认识到，系统中使用的数据的敏感性和类型可能会影响其作为攻击者目标的价值。你的评估应该考虑到，随着人工智能系统越来越被视为高价值目标，以及人工智能本身能够实现新的自动攻击载体，一些威胁可能会增加。 |
| 为系统的安全性、功能性和性能进行设计 您确信，使用人工智能可以最恰当地解决手头的任务。确定这一点后，您将评估您的人工智能特定设计选择的适当性。您将考虑您的威胁模型和相关的安全缓解措施，以及功能、用户体验、部署环境、性能、保证、监督、道德和法律要求等因素。例如： 1. 在选择是内部开发还是使用外部组件时，您会考虑供应链安全，例如： >您选择训练新模型、使用现有模型（有或没有微调）或通过外部API访问模型都适合您的需求 >您选择与外部模型提供商合作，包括对该提供商自身安全态势的尽职调查评估 >如果使用外部库，则完成尽职调查评估（例如，确保库具有防止系统加载不受信任的模型的控件，而不会立即将其暴露于任意代码执行） >在导入第三方模型或串行权重时，可以实现扫描和隔离/沙盒，这些模型或权重应被视为不受信任的第三方代码，并可以启用远程代码执行 >如果使用外部API，则对可以发送到组织无法控制的服务的数据应用适当的控制，例如要求用户在发送潜在的敏感信息之前登录并确认 >您对数据和输入进行适当的检查和消毒；这包括在将用户反馈或持续学习数据纳入模型时，认识到训练数据定义了系统行为 1. 您将人工智能软件系统开发集成到现有的安全开发和运营最佳实践中；人工智能系统的所有元素都是在适当的环境中编写的，使用的编码实践和语言可以减少或消除已知类别的漏洞 2. 如果人工智能组件需要触发操作，例如修改文件或将输出引导到外部系统，则对可能的操作应用适当的限制（如有必要，包括外部人工智能和非人工智能故障保护） 3. 围绕用户交互的决策是由人工智能特定的风险决定的，例如： >您的系统为用户提供可用的输出，而不会向潜在的攻击者透露不必要的详细信息 >如有必要，您的系统会在模型输出周围提供有效的防护措施 >如果向外部客户或合作者提供API，您可以应用适当的控制措施，通过API减轻对AI系统的攻击 >默认情况下，将最安全的设置集成到系统中 >您应用最少特权原则来限制对系统功能的访问 >您向用户解释风险较高的功能，并要求用户选择使用这些功能；您传达被禁止的用例，并在可能的情况下通知用户替代解决方案 |
| 在选择人工智能模型时考虑安全优势和权衡 您对人工智能模型的选择将涉及一系列需求的平衡。这包括模型架构、配置、训练数据、训练算法和超参数的选择。您的决策由您的威胁模型决定，并随着人工智能安全研究的进展和对威胁的理解的发展定期进行重新评估。在选择人工智能模型时，您的考虑因素可能包括但不限于： 1. 您正在使用的模型的复杂性，即所选择的架构和参数的数量；您的模型所选择的体系结构和参数数量，以及其他因素，将影响它需要多少训练数据，以及它在使用时对输入数据变化的鲁棒性 2. 模型是否适合您的用例和/或将其适应您的特定需求的可行性（例如通过微调） 3. 调整、解释和解释模型输出的能力（例如调试、审计或法规遵从性）；与更难解释的大型复杂模型相比，使用更简单、更透明的模型可能有好处 4. 训练数据集的特征，包括大小、完整性、质量、敏感性、年龄、相关性和多样性 5. 使用模型强化（如对抗性训练）、规则化和/或隐私增强技术的价值 6. 组件的来源和供应链，包括模型或基础模型、训练数据和相关工具有关这些因素中有多少影响安全结果的更多信息，请参阅NCSC的"机器学习安全原则"，特别是安全设计（模型架构） |

2.安全开发

本节包含适用于人工智能系统开发生命周期开发阶段的指南，包括供应链安全、文档以及资产和技术债务管理。

3.安全部署

本节包含适用于人工智能系统开发生命周期部署阶段的指南，包括保护基础设施和模型免受损害、威胁或损失、开发事件管理流程和负责任的发布。

4.安全操作和维护

|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 监控系统的行为 您可以测量模型和系统的输出和性能，以便观察影响安全性的行为的突然和逐渐变化。您可以解释和识别潜在的入侵和妥协，以及自然的数据漂移。 |
| 监控系统的输入 根据隐私和数据保护要求，您可以监控并记录系统的输入（如推理请求、查询或提示），以便在发生泄露或滥用时履行合规义务、进行审计、调查和补救。这可能包括对分布外和/或对抗性输入的显式检测，包括那些旨在利用数据准备步骤（如裁剪和调整图像大小）的输入。 |
| 遵循安全的设计方法进行更新 默认情况下，您在每个产品中都包含自动更新，并使用安全的模块化更新过程进行分发。您的更新过程（包括测试和评估制度）反映了这样一个事实，即数据、模型或提示的更改可能会导致系统行为的更改（例如，您将主要更新视为新版本）。您支持用户评估和响应模型更改（例如，通过提供预览访问和版本化API）。 |
| 收集和分享经验教训 您参与信息共享社区，在全球工业、学术界和政府生态系统中进行合作，酌情分享最佳实践。您在组织内部和外部保持开放的沟通渠道，以获得有关系统安全的反馈，包括同意安全研究人员研究和报告漏洞。必要时，您可以将问题上报给更广泛的社区，例如发布公告以回应漏洞披露，包括详细完整的常见漏洞枚举。您可以采取行动快速、适当地缓解和补救问题。 |