【新论文】【模型攻击】DiffAttack 针对基于扩散的对抗性净化的逃避攻击

DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial Purification

作者: Mintong Kang; Dawn Song; Bo Li

链接: http://arxiv.org/pdf/2311.16124v1

备注: Accepted to NeurIPS 2023

摘要:

基于扩散的净化防御利用扩散模型去除对抗样本的精心设计的扰动,从而实现最先进的鲁棒性。最近的研究显示,即使是高级的攻击也无法有效地破坏这种防御,因为净化过程会导致计算图极其深层,这带来了梯度混淆、高内存成本和不受限的随机性的潜在问题。在本文中,我们提出了一个统一的框架DiffAttack,用于对基于扩散的净化防御进行有效和高效的攻击,包括DDPM和基于分数的方法。特别地,我们在中间扩散步骤提出了一种偏差重建损失,以引发不准确的密度梯度估计,以解决梯度消失/爆炸的问题。我们还提供了一种分段正向反向传播算法,可以实现高效的梯度反向传播。我们在CIFAR-10和ImageNet上验证了DiffAttack相对于现有的自适应攻击的攻击有效性。我们发现,相比于SOTA攻击,DiffAttack在CIFAR-10上降低了模型的鲁棒准确率超过20%( ℓ ∞ \ell_\infty ℓ∞攻击, ϵ = 8 / 255 \epsilon=8/255 ϵ=8/255),在ImageNet上降低了超过10%( ℓ ∞ \ell_\infty ℓ∞攻击, ϵ = 4 / 255 \epsilon=4/255 ϵ=4/255)。我们进行了一系列的剔除研究,发现:1)在均匀采样的时间步骤上添加偏差重建损失的DiffAttack比仅在初始/结束步骤上添加更有效;2)使用适度的扩散长度的基于扩散的净化在DiffAttack下更加鲁棒。

Identifying and Mitigating Vulnerabilities in LLM-Integrated Applications

作者: Fengqing Jiang; Zhangchen Xu; Luyao Niu; Boxin Wang; Jinyuan Jia; Bo Li; Radha Poovendran

链接: http://arxiv.org/pdf/2311.16153v1

备注: None

摘要:

大型语言模型(LLMs)越来越多地作为LLM集成应用程序的服务后端部署,例如代码完成和AI驱动的搜索。LLM集成应用程序作为中间件,利用领域特定知识对用户的查询进行细化,以更好地通知LLMs并增强响应。尽管存在众多机会和益处,但LLM集成应用程序也引入了新的攻击面。理解、减少和消除这些新兴攻击面是一个新的研究领域。在这项工作中,我们考虑了用户和LLM通过LLM集成应用程序进行交互的设置。我们着重关注从用户查询开始到LLM集成应用程序返回查询结果的通信轮次 ,由服务后端的LLMs提供支持。对于这种查询-响应协议,我们识别出潜在的漏洞可能来自恶意应用程序开发者或能够控制数据库访问、操纵和毒害对用户具有高风险的数据的外部威胁发起者。成功利用这些已识别的漏洞将导致用户接收到与威胁发起者意图相符的响应 。我们评估了针对由OpenAI GPT-3.5和GPT-4支持的LLM集成应用程序的这种威胁。我们的实证结果显示,这些威胁可以有效地绕过OpenAI的限制和审查政策,导致用户收到包含偏见、有害内容、隐私风险和虚假信息 的响应。为了缓解这些威胁,我们确定并定义了四个关键属性,即完整性、来源识别、攻击可检测性和实用性保留,这些属性需要一个安全的LLM集成应用程序满足。基于这些属性,我们开发了一种轻量级、威胁无关的防御方法,可以缓解内部和外部威胁。

相关推荐
科技小花17 小时前
全球化深水区,数据治理成为企业出海 “核心竞争力”
大数据·数据库·人工智能·数据治理·数据中台·全球化
zhuiyisuifeng19 小时前
2026前瞻:GPTimage2镜像官网或将颠覆视觉创作
人工智能·gpt
徐健峰19 小时前
GPT-image-2 热门玩法实战(一):AI 看手相 — 一张手掌照片生成专业手相分析图
人工智能·gpt
weixin_3709763519 小时前
AI的终极赛跑:进入AGI,还是泡沫破灭?
大数据·人工智能·agi
Slow菜鸟19 小时前
AI学习篇(五) | awesome-design-md 使用说明
人工智能·学习
冬奇Lab19 小时前
RAG 系列(五):Embedding 模型——语义理解的核心
人工智能·llm·aigc
深小乐19 小时前
AI 周刊【2026.04.27-05.03】:Anthropic 9000亿美元估值、英伟达死磕智能体、中央重磅定调AI
人工智能
码点滴19 小时前
什么时候用 DeepSeek V4,而不是 GPT-5/Claude/Gemini?
人工智能·gpt·架构·大模型·deepseek
狐狐生风20 小时前
LangChain 向量存储:Chroma、FAISS
人工智能·python·学习·langchain·faiss·agentai
波动几何20 小时前
CDA架构代码工坊技能cda-code-lab
人工智能