[论文阅读]Homeopathic Poisoning of RAG Systems

Homeopathic Poisoning of RAG Systems

Homeopathic Poisoning of RAG Systems | SpringerLink

Computer Safety, Reliability, and Security. SAFECOMP 2024 Workshops

完全没有意义的一篇文章,如果不是为了调研RAG攻防,我是看都不会看一眼的。

一言以蔽之,就是在原始文本后面添加由hotflip方案优化的token来提高或者降低文档对目标问题的相似度。完完全全是一个检索器攻击,和LLM没有一点关系,没有考虑到生成器的作用。

威胁模型

攻击者的目标:在现实世界中的恶意目标可能是传播虚假信息、使 LLM 答案偏向于对产品甚至人的负面或正面看法、传播财务错误信息等。攻击者从数据库 D 中选择一个所需的上下文 C,供 LLM 用来回答给定问题 Q(我们称之为目标问题)。上下文可能由数据库中的几篇文本 (top-k) 组成,但为了简单起见(不失去通用性,因为攻击可能会一个接一个地针对所有文本),我们将假设 C 指的是一个文本。虽然攻击者的目标是支持 LLM 使用的某些上下文,但也可以有一个目标,即不推荐给定的上下文并避免被使用。因此,我们将考虑这两种情况,同时将第一种称为相似性攻击,将第二种称为相异性攻击。

攻击者的能力:对检索器白盒访问权限;可以通过某些手段完成对知识数据库的篡改

HOPRAG

目标是找到后缀S,使得当上下文C在拼接S后,与问题更相关或者更加不相关。

这是一个优化问题,按照PoisonedRAG中的类似方法使用梯度下降来设计提示注入攻击。

实际上就是用的Hotflip

实验

使用了 QUORA 数据集,该数据集由来自同名论坛网站的 400,000 篇文本组成

相似性攻击:从数据集中随机选择了 1000 个样本,每个样本从数据集中寻找最不同的文本。形成了 1000 对语义上非常不同的文本,并试图使它们与攻击相似。

差异性攻击:没有选择相似的文本来形成对,而是从数据集中随机提取了 2000 个文本,并尝试使每个文本与自身的副本不同。

实验中考虑的标准是添加后缀前后所有样本的相似性平均差(偏移)

使用 {1, 3, 5, 10} 标记的不同后缀长度重复实验,以研究该参数对相似性偏移的影响,从而对攻击效果的影响。

另一个重要参数是优化过程的步数 (梯度下降的次数)。相似性的演变随其函数的变化而变化,因为相异性和相似性攻击分别显示在图 4 和图 5 上。

为了证明相似性的变化不是由于在文本中注入了更多的标记而是 HOPRAG 所造成的,考虑了一种添加随机标记的攻击(图 3)。使用名为 all-MiniLML12-v2 的开源嵌入模型进行了所有实验。

结果

攻击的执行速度非常快。只需不到一秒到几秒钟

  • 使用注入随机标记的基线攻击(图 3)在相似性攻击的情况下根本无效,因为即使注入最大标记数量 (L = 10),曲线也保持平坦并接近于零。关于相异性攻击,情况要好得多,但即使 L = 10,偏移仍然小于 0.4。事实上,当将标记注入文本时,我们会对文本标记进行一些稀释,因此在语义上偏离了原来的含义。

-HOPRAG 差异攻击(图 4)是有效的,并且比随机注入的效果要好得多,即使后缀只有 3 个标记,并且只经过 10 次优化迭代,也会导致超过 0.4 的偏移。对于长度为 L = 10 的后缀,偏移大于 0.8.显然,这个高值可能会改变 RAG 的前 k 排名,从而深深影响 LLM 答案。

-HOPRAG 相似性攻击(图 5)也很有效,并导致向只有非常有限长度后缀的目标 (L = 3) 平均偏移 0.4。这证明,对于给定的请求,我们可以将知识数据库中的任何上下文作为目标,即使是语义上非常遥远的上下文,以供 LLM 用来提供答案。这种中毒攻击的后果显然很严重,因为攻击者可以毫无困难地随心所欲地偏向 LLM/RAG 的答案。此外,申请 HOPRAG 所需的时间和硬件手段触手可及。

结论

介绍了 RAG 系统中相似性/不相似性攻击的新概念,提出并实施了 HOPRAG 攻击,它通过向上下文注入简短但非常有效的后缀来有效地修改 RAG 的上下文和给定查询之间的相似性/不相似性。虽然 HOPRAG 目前的工作重点是在上下文中添加后缀以改变 RAG 检索器的前 k 排名,但完全相同的原则可以应用于提示端。这种攻击甚至更容易,因为不需要访问数据库。

作为未来的工作,计划将 HOPRAG 威胁模型扩展到黑盒设置。还希望调查针对 RAG 中毒攻击的防御措施。

相关推荐
智算菩萨20 分钟前
【Generative AI For Autonomous Driving】4 自动驾驶生成式模型前沿实战——从图像合成到多模态大模型的技术全景解析
论文阅读·人工智能·深度学习·机器学习·ai·自动驾驶
智算菩萨8 小时前
【How Far Are We From AGI】3 AGI的边界扩张——数字、物理与智能三重接口的技术实现与伦理困境
论文阅读·人工智能·深度学习·ai·agi
智算菩萨12 小时前
【How Far Are We From AGI】6 AGI的进化论——从胚胎到终极的三级跃迁与发展路线图
论文阅读·人工智能·深度学习·ai·agi
智算菩萨12 小时前
【How Far Are We From AGI】7 AGI的七重奏——从实验室到现实世界的应用图景与文明展望
论文阅读·人工智能·ai·agi·感知
智算菩萨15 小时前
多目标超启发式算法系统文献综述:人机协同大语言模型方法论深度精读
论文阅读·人工智能·深度学习·ai·多目标·综述
智算菩萨16 小时前
【How Far Are We From AGI】5 AGI的“道德罗盘“——价值对齐的技术路径与伦理边界
论文阅读·人工智能·深度学习·ai·接口·agi·对齐技术
wuxuand19 小时前
2026年时序分类综述论文阅读
论文阅读
StfinnWu19 小时前
论文阅读《GridDehazeNet: Attention-Based Multi-Scale Network for Image Dehazing》
论文阅读·深度学习·机器学习
智算菩萨20 小时前
AGI神话:人工通用智能的幻象如何扭曲与分散数字治理的注意力
论文阅读·人工智能·深度学习·ai·agi
红茶川21 小时前
[论文阅读] π0: A Vision-Language-Action Flow Model for General Robot Control
论文阅读·ai·具身智能·vla