【新论文】【模型攻击】DiffAttack 针对基于扩散的对抗性净化的逃避攻击

DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial Purification

作者: Mintong Kang; Dawn Song; Bo Li

链接: http://arxiv.org/pdf/2311.16124v1

备注: Accepted to NeurIPS 2023

摘要:

基于扩散的净化防御利用扩散模型去除对抗样本的精心设计的扰动,从而实现最先进的鲁棒性。最近的研究显示,即使是高级的攻击也无法有效地破坏这种防御,因为净化过程会导致计算图极其深层,这带来了梯度混淆、高内存成本和不受限的随机性的潜在问题。在本文中,我们提出了一个统一的框架DiffAttack,用于对基于扩散的净化防御进行有效和高效的攻击,包括DDPM和基于分数的方法。特别地,我们在中间扩散步骤提出了一种偏差重建损失,以引发不准确的密度梯度估计,以解决梯度消失/爆炸的问题。我们还提供了一种分段正向反向传播算法,可以实现高效的梯度反向传播。我们在CIFAR-10和ImageNet上验证了DiffAttack相对于现有的自适应攻击的攻击有效性。我们发现,相比于SOTA攻击,DiffAttack在CIFAR-10上降低了模型的鲁棒准确率超过20%( ℓ ∞ \ell_\infty ℓ∞攻击, ϵ = 8 / 255 \epsilon=8/255 ϵ=8/255),在ImageNet上降低了超过10%( ℓ ∞ \ell_\infty ℓ∞攻击, ϵ = 4 / 255 \epsilon=4/255 ϵ=4/255)。我们进行了一系列的剔除研究,发现:1)在均匀采样的时间步骤上添加偏差重建损失的DiffAttack比仅在初始/结束步骤上添加更有效;2)使用适度的扩散长度的基于扩散的净化在DiffAttack下更加鲁棒。

Identifying and Mitigating Vulnerabilities in LLM-Integrated Applications

作者: Fengqing Jiang; Zhangchen Xu; Luyao Niu; Boxin Wang; Jinyuan Jia; Bo Li; Radha Poovendran

链接: http://arxiv.org/pdf/2311.16153v1

备注: None

摘要:

大型语言模型(LLMs)越来越多地作为LLM集成应用程序的服务后端部署,例如代码完成和AI驱动的搜索。LLM集成应用程序作为中间件,利用领域特定知识对用户的查询进行细化,以更好地通知LLMs并增强响应。尽管存在众多机会和益处,但LLM集成应用程序也引入了新的攻击面。理解、减少和消除这些新兴攻击面是一个新的研究领域。在这项工作中,我们考虑了用户和LLM通过LLM集成应用程序进行交互的设置。我们着重关注从用户查询开始到LLM集成应用程序返回查询结果的通信轮次 ,由服务后端的LLMs提供支持。对于这种查询-响应协议,我们识别出潜在的漏洞可能来自恶意应用程序开发者或能够控制数据库访问、操纵和毒害对用户具有高风险的数据的外部威胁发起者。成功利用这些已识别的漏洞将导致用户接收到与威胁发起者意图相符的响应 。我们评估了针对由OpenAI GPT-3.5和GPT-4支持的LLM集成应用程序的这种威胁。我们的实证结果显示,这些威胁可以有效地绕过OpenAI的限制和审查政策,导致用户收到包含偏见、有害内容、隐私风险和虚假信息 的响应。为了缓解这些威胁,我们确定并定义了四个关键属性,即完整性、来源识别、攻击可检测性和实用性保留,这些属性需要一个安全的LLM集成应用程序满足。基于这些属性,我们开发了一种轻量级、威胁无关的防御方法,可以缓解内部和外部威胁。

相关推荐
lisw051 天前
人工智能伦理的演进对科技政策有何影响?
人工智能·科技·机器学习
LYFlied1 天前
AI时代下的规范驱动开发:重塑前端工程实践
前端·人工智能·驱动开发·ai编程
心疼你的一切1 天前
使用Transformer构建文本分类器
人工智能·深度学习·神经网络·机器学习·transformer
鹧鸪云光伏1 天前
如何选择光储一体化方案设计软件
大数据·人工智能·光伏·光储
星诺算法备案1 天前
读懂大模型备案流程,开启技术安全应用新征程
人工智能·算法·推荐算法·备案
Loo国昌1 天前
大型语言模型推理范式演进:从提示工程到思维算法
人工智能·算法·语言模型·自然语言处理
ToTensor1 天前
国产GPU适配实战——五款二线主流AI加速卡深度评测
人工智能·显卡
古城小栈1 天前
Go + 边缘计算:工业质检 AI 模型部署实践指南
人工智能·golang·边缘计算
SelectDB1 天前
Apache Doris AI 能力揭秘(四):HSAP 一体化混合搜索架构全解
数据库·人工智能·agent
tap.AI1 天前
AI时代的云安全(四)云环境中AI模型的安全生命周期管理实践
人工智能·安全