2023大模型安全解决方案白皮书

今天分享的是大模型系列深度研究报告：《2023大模型安全解决方案白皮书》。

（报告出品方：百度安全）

报告共计：60页

前言

在当今迅速发展的数字化时代，人工智能技术正引领着科技创新的浪潮而其中的大模型技术则被视为人工智能的一大突破。大模型是指参数量巨大能力强大的人工神经网络模型，以其卓越的表现在自然语言处理、计算机视觉、语音识别等领域赢得了持续的关注和青睐。这些模型的出现，不仅在学术界引起了研究者们的广泛兴趣，也在商业应用领域带来了一系列创新和变革大模型技术的崛起，首要得益于深度学习的发展以及硬件计算能力的提升。深度学习模型，尤其是基于 Transformer 架构的模型，如 BERT、GPT 和T5，通过在海量数据上进行训练，学习到了丰富的语义和特征表示，使得其在多项人工智能任务中展现出远超以往的性能。例如，在自然语言处理领域，这些大模型能够实现更准确、更流畅的语言生成、机器翻译和情感分析等任务，大大提升了人机交互和信息处理的能力。伴随着大模型的不断演进和不断优化，其在商业领域的应用也愈发广泛，金融行业可以利用大模型进行风险评估和市场预测，医疗领域可以通过大模型实现图像识别和疾病诊断，而广告、营销等领域也能够通过大模型实现更精准的用户推荐和个性化服务。同时，大模型还在科学研究、文化创意和娱乐产业中发挥着积极作用，为人类创造了更多可能性.但伴随着大模型技术的迅猛发展，一系列安全风险和伦理挑战也开始浮现。大规模数据的采集和存储，可能导致个人隐私的泄露和滥用。模型的强大能力也可能被恶意利用，用于虚假信息生成、社会工程和网络攻击。对抗样本攻击则可能使得模型产生误导性结果，严重影响决策的准确性。

大模型安全的重要性

随着大模型技术的高速发展，其在各个领域的应用日益广泛，从科研到商业，再到日常生活、办公等方方面面。但随之而来的是一系列潜在的安全风险，这些风险的引发和应对不仅关乎企业的声誉，还牵涉到个人隐私的保护和社会的稳定。正因如此，深入了解和应对这些安全风险变得至关重要。

首先，大模型在许多应用场景中处理大量敏感数据和个人信息，如用户的搜索记录、社交媒体互动和金融交易等。这使得数据泄露和隐私侵犯的风险不容忽视。一旦这些敏感信息遭受泄露，个人隐私权益可能会受到严重损害，甚至被用于恶意行为，如身份盗窃、诈骗和社会工程攻击。这不仅会对受害者造成经济损失，还可能导致社会的恐慌和不信任。

其次，大模型的强大能力也可能被用于进行各种形式的恶意攻击。模型的对抗性样本攻击，即针对模型的输入进行微小改动，从而欺骗模型产生错误预测，已成为一种常见的威胁。恶意使用者可以通过这种方式制造虚假信息，影响决策结果，如将误导性的信息传播到社交媒体平台，从而扰乱社会秩序。此外，大模型的生成能力也可能被用于生成虚假的内容，威胁到媒体的可信度和新闻的真实性。

大模型应用面临的安全挑战与潜在威胁

ChatGPT 引爆的生成式人工智能热潮，让 AI 模型在过去几个月成为行业瞩目的焦点，并且在国内引发"百模大战"，在大模型高速发展的同时，大模型应用所面临的安全挑战、与潜在的威胁也不能够忽视，本文将依托百度安全大模型安全实践与总结，分别从数据安全与隐私问题、模型流转/部署过程中的安全问题、AIGC 的内容合规问题、以及大模型运营过程中的业务安全问题在内共计四个方向，详细介绍一下相关的安全挑战。

1、传输截获风险：在进行大模型非私有化的预训练、精调、推理服务时，数据需要在不同的主体或部门之间进行传输。

2、运营方窥探风险：在精调与推理阶段，通常需要使用个人身份信息、企业数据等敏感数据来提高模型的准确性和性能。

3、模型记忆风险：经过模型的训练和推理后，模型会形成记忆。

大模型本身也是一种重要的资产，它包含了大量的知识和技能，如果没有合理的管理和控制，就可能被盗取、复制或篡改，导致模型的性能下降或功能失效。此外，大模型也可能受到对抗攻击的威胁，如对抗样本、对抗训练等这些攻击可以使模型产生错误的输出;本白皮书围绕数据、模型、网络通信等多个方面所面临的安全问题做一下介绍：

1、模型知识泄漏：在将模型部署到生产环境中，模型的输出可能会暴露训练数据的一些信息。

2、模型逆向工程：攻击者可能尝试通过逆向工程技术还原部署模型的架构、权重和训练数据。

3、输入数据的合法性和安全性：在模型部署阶段，恶意用户可能试图通过提供恶意输入来攻击系统。

4、模型更新和演化：模型需要定期更新以保持性能和适应新的数据分布。

大模型安全解决方案

百度二十余年安全对抗的总结与提炼，围绕百度【文心大模型】安全实践经验，推出以 AI 安全为核心的大模型安全风控解决方案，从大模型全生命周期视角出发，方案涵盖大模型训练/精调/推理、大模型部署、大模型业务运营等关键阶段所面临的安全风险与业务挑战，提供全套安全产品与服务，助力企业构建平稳健康、可信、可靠的大模型服务。

在联邦学习的横向技术基础上，又针对大模型的训练中遇到的特性做了优化。首先，大模型的训练较传统的训练阶段，又细分为预训练和精调两个阶段，并且训练模式也不同，为半监督训练和监督训练，并且两个阶段的训练量上，预训练要远大于精调，特别在精调训练手段也有很多特殊的 peft 的手段其次，大模型的模型参数量较传统机器学习模型要多出几个数量级，并且在训练过程中有着计算量大和计算节点的算力不均衡等问题。最后，较传统的横向联邦，安全模型也是不相同的，传统上需要保护的是用户数据，而不是模型而对于大模型的场景，除了用户数据是隐私的，其中训练的模型也是厂家投入了大量资本产生的，所以在大模型场景下模型安全也是需要考虑的。

差分隐私 (differential privacy) 是一个数据保护手段，通过使用随机噪声来确保请求信息的可见结果时，不会因为个体的变化而变化，实现仅分享可以描述数据库的一些统计特征、而不公开具体到个人的信息。这一特性可以被用来保护大模型在精调和推理时与云端服务端交互的用户数据隐私。

同态密码学是一项联邦学习的关键技术，提供了在加密状态下对数据进行计算和处理的能力，从而保护数据的隐私和安全。对于大模型的数据保护思路，是通过同态密码学来实现大模型的计算逻辑，从而大模型可以接受密态化的数据输入，整体精调和推理过程完全是密态化的进行，最终的结果也是以密态的形式返回给客户端，整个过程完全是密态化的，所以将此过程完全部署到在云上的服务端。而客户仅需要将本地的隐私数据密态化后上传给服务端，所有计算过程由云端外包完成，但是云端服务，不能获取到计算的内容。

对于同态密码学方案，核心是如何通过同态密码学实现大模型的核心计算逻辑，其中主要包括，Embedding， Transformer (Attention) 和 Header等大模型基础组件结构。由于同态密码学计算复杂性和支持的计算有限，如何合理的利用同态密码学算法能达到可用性和精度的要求，实现精调和推理阶段隐私保护的方案。

基于 HGS 的 Primer在 MPC 方向有基于 2PC的MPCFormer和lron，基于 3PC的 Puma。除了底层实现方法的不同之外，对于如何通过同态密码学中有限的计算方式去实现和逼近大模型的基础算子也是目前研究的热点。在降低计算量的同时，如何平衡计算量和网络传输量之间的关系，以达到在实际应用中能最大化的降低耗时，将算法可用性能进一步接近可用，也是研究所追求的目标。

我们的同态密码学方案是结合同态密码学和差分隐私等技术，构建的一个对用户数据进行密态计算的方案，并将此技术运用在大模型的精调和推理阶段。在用户客户端，会安装一个客户端插件，此插件主要用于加密用户的隐私数据，形成可以用于密态计算的语料，通过网络连接将加密后的数据发送给服务端。在服务端，将加密的语料直接加载后，通过同态的特性直接用于模型计算。最终的结果也将以密文的形式，返回给客户端。客户端，通过插件将数据解密后得到最终的结果。由于数据全程都是密态形态，所以任何第三方都不可窃取到用户在使用大模型中交互的数据，从而保护了用户数据的隐私。

可信执行环境（trusted execution environment, TEE）是处理器中的安全区域，TEE 保护程序与数据的机密性和完整性不被外部窃取和破坏。与存储加密和网络通信加密一起，TEE 可以保护落盘(at rest)和通信过程中(in transit) 的数据隐私和安全。随着 TEE 技术的发展，在计算核心与内存之间增加安全处理器，以保护被计算核心使用(in use)的数据安全和隐私的机密计算技术出现。

报告共计：60页