“AI+Security”系列第2期（三）：面向LLM（大语言模型）的漏洞挖掘与对齐防御研究

近日，由安全极客、Wisemodel 社区和 InForSec 网络安全研究国际学术论坛联合主办的"AI+Security"系列第 2 期------对抗！大模型自身安全的攻防博弈线上活动如期举行。

在此次活动中，前阿里云高级安全专家郑瀚 带来了以**《通往LLM安全对齐的道路：面向LLM（大语言模型）的漏洞挖掘与对齐防御研究》**为题的精彩分享，其深入地探讨了大模型技术进展及当前面临的技术风险、LLM越狱攻击产生的原理、相关案例及大语言安全对齐技术研究等相关内容，使我们对大语言模型面临的漏洞挖掘及防御有了深刻的理解。

大语言模型技术进展及技术风险

在当今迅速发展的人工智能领域，大语言模型（LLM）已然成为技术革新的核心力量。凭借强大的算力以及海量的数据，LLM 不但能够提供语言理解、知识问答之类的基础服务，还正在朝着泛化和专业化的双重路径迈进，实现云边端模型的互补，推动大模型开源以及敏捷治理等方向发展，从而展现出极为广阔的市场前景和巨大的潜在价值。

然而，随着大语言模型技术的迅速发展，一系列技术风险也随之而来。

首先，LLM 本质上属于一个概率模型，存在诸多问题，例如生成内容不可靠、能力不可控等。

其次，在企业层面，大型模型面临着多重风险挑战，如用户隐私和商业秘密泄露、版权侵权、数据安全等；在个人层面，挑战 LLM 涉及多个重要方面，像信息获取、个人尊严以及情感伦理等对社会伦理和道德的影响。

第三，在 LLM 时代，不论是攻击者还是防守方，都需要同时考虑多个维度的任意组合，例如多轮对话上下文、多模态信号媒介、泛在终端设备中架构各异的 LLM、自然语言维度缩放。相比传统云安全，大语言模型的安全攻击面存在维度爆炸的情况。

大语言模型越狱攻击原理

AI 安全和传统安全的本质均是信任问题，安全风险的本质在于系统突破了原有的信任边界，进而产生了非预期的行为和后果。然而，此次 AI 安全范式的转移带来的最大挑战是"漏洞搜索空间接近无穷大"。这是由于大模型本质上是由千亿参数组成的长序列概率模型，因此几乎难以像在传统安全领域那样，借助形式逻辑的方式进行漏洞挖掘和防御。

比如，传统的安全漏洞挖掘或许集中于特定的代码段或系统模块，然而对于大模型，因其参数众多且相互关联复杂，致使明确的漏洞定位极为困难。再如，传统安全防御的策略在面对大模型时可能成效甚微，由于其复杂的结构和概率性的运算方式很难用传统的逻辑规则来约束和预测。

大语言模型（LLM）的 Prompt Injection 攻击的产生原理涉及通过精心设计的提示来操纵模型的输出。这种攻击手段能够分类为直接注入、间接注入和跨上下文注入，每种类型的目的均是绕过模型的约束以获取受限信息。LLM 的防御机制或许基于几个关键假设：模型层可能嵌入了特殊的防御神经元，形成"防御模式"；在面临攻击时，这些模式会被触发从而产生防御响应；成功的攻击不会触发这些模式，而失败的攻击则会；在成功的越狱攻击中，模型的神经元激活模式倾向于对无害输入的响应。

为了提升攻击的成功率，攻击者可能会尝试重建模型的指令遵循能力，并让敏感词在模型的概率空间中与普通词相近，以降低触发防御机制的可能性。这种攻击手段在一定程度上类似于对一个高智商但可能缺乏情商的小孩进行社会工程攻击，攻击者利用模型的内在弱点来操纵其行为。通过这样的方式，Prompt Injection 攻击能够让 LLM 输出攻击者期望的结果，同时绕过或者使模型的防御机制失效。

大语言模型技术分析&案例

在人工智能领域，大型语言模型（LLM）的安全性问题愈发受到关注。LLM越狱技术是指通过特定手段绕过模型的安全限制，使其执行非预期行为，这对模型的安全性以及社会伦理法律规范构成了严重挑战。LLM越狱技术可分为多个层次，且每个层次对应的攻击复杂性和技术难度各不相同。

随着研究的深入，越狱技术呈现出多样化的发展趋势，主要包括以下几种方法：

**1. 优化方法：**包含基于梯度的方法、遗传算法方法和编辑方法。这些技术通过操纵模型输入，以获得期望的响应。

**2. 侧信道通信：**利用长尾分布来提高越狱成功率，例如通过密码学或翻译成资源稀缺语言来传递有害指令。

**3. 基于分布的方法：**从成功的手动制作的越狱模板中学习，或利用上下文中的例子来增加模型对有害指令的敏感性。

**4. 社会工程学方法：**将大语言模型（LLM）视为能够理解人类命令的沟通者，并运用多学科知识对其进行攻击。在这种方法中，特别注重以下几个策略：首先，权威背书，即通过运用权威性的语言来增强指令的可信度，从而使模型更容易接受并执行这些指令。其次，逻辑解释，即借助严格的逻辑来解释事情的前因后果，以此误导模型，使其产生错误的判断。最后，信息差利用，即利用信息不对称，传递误导性信息，从而达到攻击的目的。

此外，安全交付软件的重要部分之一是红队测试，其广义上是指模拟现实世界对手的工具、策略和程序，以识别风险、发现盲点、验证假设并改善系统的整体安全状态。

红队测试需要具备以下核心特征：广泛地LLM模型接口适配、丰富的越狱变形算法以减少人工重复尝试的时间浪费、自动化的红队判别模型以提升0Day的发现效率。

大语言模型安全对齐技术研究

当前，开源大语言模型存在严重的安全隐患，容易被利用生成有害或违法内容。例如，最强大模型 Llama 3.1 上线就被攻破了。所以，加强模型的安全防护，防止恶意内容的生成和传播，显得尤为重要。安全研究的最终目标是提高 LM 的安全性，促进其在各种场景中的安全部署。开发 LM 的每个阶段都可能存在漏洞，我们需要在整个端到端的工作流中实施相应的安全增强技术。

可通过预处理和对抗性训练等技术手段来提升模型的安全性，引入多层次的安全防护措施，在从数据处理、模型训练、推理生成到输入输出的全流程中进行安全防护。持续监控和评估模型的安全表现，特别是针对复杂和恶意的应用场景，确保模型在各种使用环境中的安全可靠性。

人工智能的发展旨在提高人类的能力和生产力，我们应遵循"以人为本、以技术为导向、创造信任"的原则。要实现大型语言模型（LLMs）的安全一致性，需采用**"云-边缘-端"** 策略，该策略涵盖三个关键领域：防御技术、评测技术 和安全左移。

**·**防御技术包括 Prompt 意图识别、解毒、反射提示和自定义风险分类器，能实时保护 LLM 的稳定运行。通过识别和过滤有害或不当的输入内容，确保模型生成结果的安全性和可靠性。

**·**评测技术在预训练期间嵌入安全性，采用监督微调（SFT）和人工反馈强化学习（RLHF）等方法增强模型的一致性。这些技术通过对模型持续的监控和调整，确保其在各种使用场景下生成安全且合规的内容。

**·**安全左移在整个开发过程中集成安全措施，解决模型稳定性、数据完整性和内容安全等问题。通过在开发早期阶段引入安全考虑，能够预防潜在的安全风险，提升模型的整体安全性。

最后，云边缘端自适应安全的分层方法为云模型提供强大保护，也为资源受限的边缘设备提供实用的安全措施。通过在不同层次实施适应性的安全策略，云-边缘-端策略能够全面提升 LLM 的安全性和可靠性。

写在最后

大语言模型技术的持续发展为产业的进步带来了强大的推动力，然而，与此同时，诸如越狱攻击等一系列风险也给大语言模型带来了巨大的安全威胁。深入了解和掌握大语言模型越狱攻击的原理以及相关技术，对于企业而言至关重要。这将赋能企业能够更好地防范安全风险，打造更为安全的产品，从而确保大模型在应用过程中更加安全可靠。只有充分认识并有效应对这些安全挑战，我们才能充分发挥大语言模型的优势，推动产业的健康发展。

**"AI + Security"系列的第三期专题分享活动将于9月初左右与大家在线下见面。**届时，我们将邀请来自人工智能（AI）和网络安全领域的行业专家以及领军人物共同参与分享，深入探讨并分享关于"AI + Security"技术理念的独到见解和丰富经验。

欢迎大家关注"安全极客"，我们热切期待您的加入，一同推动AI与安全技术的融合与创新，共创美好未来！