【新论文】【模型攻击】DiffAttack 针对基于扩散的对抗性净化的逃避攻击

DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial Purification

作者: Mintong Kang; Dawn Song; Bo Li

链接: http://arxiv.org/pdf/2311.16124v1

备注: Accepted to NeurIPS 2023

摘要:

基于扩散的净化防御利用扩散模型去除对抗样本的精心设计的扰动,从而实现最先进的鲁棒性。最近的研究显示,即使是高级的攻击也无法有效地破坏这种防御,因为净化过程会导致计算图极其深层,这带来了梯度混淆、高内存成本和不受限的随机性的潜在问题。在本文中,我们提出了一个统一的框架DiffAttack,用于对基于扩散的净化防御进行有效和高效的攻击,包括DDPM和基于分数的方法。特别地,我们在中间扩散步骤提出了一种偏差重建损失,以引发不准确的密度梯度估计,以解决梯度消失/爆炸的问题。我们还提供了一种分段正向反向传播算法,可以实现高效的梯度反向传播。我们在CIFAR-10和ImageNet上验证了DiffAttack相对于现有的自适应攻击的攻击有效性。我们发现,相比于SOTA攻击,DiffAttack在CIFAR-10上降低了模型的鲁棒准确率超过20%( ℓ ∞ \ell_\infty ℓ∞攻击, ϵ = 8 / 255 \epsilon=8/255 ϵ=8/255),在ImageNet上降低了超过10%( ℓ ∞ \ell_\infty ℓ∞攻击, ϵ = 4 / 255 \epsilon=4/255 ϵ=4/255)。我们进行了一系列的剔除研究,发现:1)在均匀采样的时间步骤上添加偏差重建损失的DiffAttack比仅在初始/结束步骤上添加更有效;2)使用适度的扩散长度的基于扩散的净化在DiffAttack下更加鲁棒。

Identifying and Mitigating Vulnerabilities in LLM-Integrated Applications

作者: Fengqing Jiang; Zhangchen Xu; Luyao Niu; Boxin Wang; Jinyuan Jia; Bo Li; Radha Poovendran

链接: http://arxiv.org/pdf/2311.16153v1

备注: None

摘要:

大型语言模型(LLMs)越来越多地作为LLM集成应用程序的服务后端部署,例如代码完成和AI驱动的搜索。LLM集成应用程序作为中间件,利用领域特定知识对用户的查询进行细化,以更好地通知LLMs并增强响应。尽管存在众多机会和益处,但LLM集成应用程序也引入了新的攻击面。理解、减少和消除这些新兴攻击面是一个新的研究领域。在这项工作中,我们考虑了用户和LLM通过LLM集成应用程序进行交互的设置。我们着重关注从用户查询开始到LLM集成应用程序返回查询结果的通信轮次 ,由服务后端的LLMs提供支持。对于这种查询-响应协议,我们识别出潜在的漏洞可能来自恶意应用程序开发者或能够控制数据库访问、操纵和毒害对用户具有高风险的数据的外部威胁发起者。成功利用这些已识别的漏洞将导致用户接收到与威胁发起者意图相符的响应 。我们评估了针对由OpenAI GPT-3.5和GPT-4支持的LLM集成应用程序的这种威胁。我们的实证结果显示,这些威胁可以有效地绕过OpenAI的限制和审查政策,导致用户收到包含偏见、有害内容、隐私风险和虚假信息 的响应。为了缓解这些威胁,我们确定并定义了四个关键属性,即完整性、来源识别、攻击可检测性和实用性保留,这些属性需要一个安全的LLM集成应用程序满足。基于这些属性,我们开发了一种轻量级、威胁无关的防御方法,可以缓解内部和外部威胁。

相关推荐
虹科网络安全几秒前
艾体宝方案丨深度解析生成式 AI 安全风险,Lepide 为数据安全护航
人工智能·aigc·ai监控·lepide·ai安全风险
shao91851613 分钟前
Gradio全解20——Streaming:流式传输的多媒体应用(6)——RT-DETR模型构建视频流目标检测系统
人工智能·gradio·streaming·rt-detr·视频流目标检测·rt-detrv2
周周记笔记18 分钟前
【统计学基础】随机抽样的特点
人工智能
金融小师妹34 分钟前
AI技术视角:美联储信号与黄金动态的量化研究——基于多模态数据分析框架
大数据·人工智能·算法
jndingxin1 小时前
OpenCV 图形API(80)图像与通道拼接函数-----仿射变换函数warpAffine()
人工智能·opencv·计算机视觉
檀越剑指大厂1 小时前
Windows系统安装Cursor与远程调用本地模型QWQ32B实现AI辅助开发
人工智能·windows
Debroon1 小时前
中科院开源:多智能体 + 知识图谱,自动生成高质量医学数据
人工智能·知识图谱
巷9551 小时前
深度学习模型的部署实践与Web框架选择
前端·人工智能·深度学习
jndingxin1 小时前
OpenCV 图形API(79)图像与通道拼接函数-----将一个三通道的 GMat 图像拆分为三个单独的单通道 GMat函数split3()
人工智能·opencv·计算机视觉
昊昊该干饭了1 小时前
拆解 Prompt 工程:五大场景驱动 DeepSeek 超越 ChatGPT
人工智能·自然语言处理·chatgpt·ai作画·gpt-3·文心一言