【新论文】【模型攻击】DiffAttack 针对基于扩散的对抗性净化的逃避攻击

DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial Purification

作者: Mintong Kang; Dawn Song; Bo Li

备注: Accepted to NeurIPS 2023

摘要:

基于扩散的净化防御利用扩散模型去除对抗样本的精心设计的扰动，从而实现最先进的鲁棒性。最近的研究显示，即使是高级的攻击也无法有效地破坏这种防御，因为净化过程会导致计算图极其深层，这带来了梯度混淆、高内存成本和不受限的随机性的潜在问题。在本文中，我们提出了一个统一的框架DiffAttack，用于对基于扩散的净化防御进行有效和高效的攻击，包括DDPM和基于分数的方法。特别地，我们在中间扩散步骤提出了一种偏差重建损失，以引发不准确的密度梯度估计，以解决梯度消失/爆炸的问题。我们还提供了一种分段正向反向传播算法，可以实现高效的梯度反向传播。我们在CIFAR-10和ImageNet上验证了DiffAttack相对于现有的自适应攻击的攻击有效性。我们发现，相比于SOTA攻击，DiffAttack在CIFAR-10上降低了模型的鲁棒准确率超过20%（ ℓ ∞ \ell_\infty ℓ∞攻击， ϵ = 8 / 255 \epsilon=8/255 ϵ=8/255），在ImageNet上降低了超过10%（ ℓ ∞ \ell_\infty ℓ∞攻击， ϵ = 4 / 255 \epsilon=4/255 ϵ=4/255）。我们进行了一系列的剔除研究，发现：1）在均匀采样的时间步骤上添加偏差重建损失的DiffAttack比仅在初始/结束步骤上添加更有效；2）使用适度的扩散长度的基于扩散的净化在DiffAttack下更加鲁棒。

Identifying and Mitigating Vulnerabilities in LLM-Integrated Applications

作者: Fengqing Jiang; Zhangchen Xu; Luyao Niu; Boxin Wang; Jinyuan Jia; Bo Li; Radha Poovendran

链接: http://arxiv.org/pdf/2311.16153v1

备注: None

摘要:

大型语言模型（LLMs）越来越多地作为LLM集成应用程序的服务后端部署，例如代码完成和AI驱动的搜索。LLM集成应用程序作为中间件，利用领域特定知识对用户的查询进行细化，以更好地通知LLMs并增强响应。尽管存在众多机会和益处，但LLM集成应用程序也引入了新的攻击面。理解、减少和消除这些新兴攻击面是一个新的研究领域。在这项工作中，我们考虑了用户和LLM通过LLM集成应用程序进行交互的设置。我们着重关注从用户查询开始到LLM集成应用程序返回查询结果的通信轮次 ，由服务后端的LLMs提供支持。对于这种查询-响应协议，我们识别出潜在的漏洞可能来自恶意应用程序开发者或能够控制数据库访问、操纵和毒害对用户具有高风险的数据的外部威胁发起者。成功利用这些已识别的漏洞将导致用户接收到与威胁发起者意图相符的响应 。我们评估了针对由OpenAI GPT-3.5和GPT-4支持的LLM集成应用程序的这种威胁。我们的实证结果显示，这些威胁可以有效地绕过OpenAI的限制和审查政策，导致用户收到包含偏见、有害内容、隐私风险和虚假信息 的响应。为了缓解这些威胁，我们确定并定义了四个关键属性，即完整性、来源识别、攻击可检测性和实用性保留，这些属性需要一个安全的LLM集成应用程序满足。基于这些属性，我们开发了一种轻量级、威胁无关的防御方法，可以缓解内部和外部威胁。