[论文阅读]Homeopathic Poisoning of RAG Systems

Homeopathic Poisoning of RAG Systems

Homeopathic Poisoning of RAG Systems | SpringerLink

Computer Safety, Reliability, and Security. SAFECOMP 2024 Workshops

完全没有意义的一篇文章，如果不是为了调研RAG攻防，我是看都不会看一眼的。

一言以蔽之，就是在原始文本后面添加由hotflip方案优化的token来提高或者降低文档对目标问题的相似度。完完全全是一个检索器攻击，和LLM没有一点关系，没有考虑到生成器的作用。

威胁模型

攻击者的目标：在现实世界中的恶意目标可能是传播虚假信息、使 LLM 答案偏向于对产品甚至人的负面或正面看法、传播财务错误信息等。攻击者从数据库 D 中选择一个所需的上下文 C，供 LLM 用来回答给定问题 Q（我们称之为目标问题）。上下文可能由数据库中的几篇文本（top-k）组成，但为了简单起见（不失去通用性，因为攻击可能会一个接一个地针对所有文本），我们将假设 C 指的是一个文本。虽然攻击者的目标是支持 LLM 使用的某些上下文，但也可以有一个目标，即不推荐给定的上下文并避免被使用。因此，我们将考虑这两种情况，同时将第一种称为相似性攻击，将第二种称为相异性攻击。

攻击者的能力：对检索器白盒访问权限；可以通过某些手段完成对知识数据库的篡改

HOPRAG

目标是找到后缀S，使得当上下文C在拼接S后，与问题更相关或者更加不相关。

这是一个优化问题，按照PoisonedRAG中的类似方法使用梯度下降来设计提示注入攻击。

实际上就是用的Hotflip

实验

使用了 QUORA 数据集，该数据集由来自同名论坛网站的 400,000 篇文本组成

相似性攻击：从数据集中随机选择了 1000 个样本，每个样本从数据集中寻找最不同的文本。形成了 1000 对语义上非常不同的文本，并试图使它们与攻击相似。

差异性攻击：没有选择相似的文本来形成对，而是从数据集中随机提取了 2000 个文本，并尝试使每个文本与自身的副本不同。

实验中考虑的标准是添加后缀前后所有样本的相似性平均差（偏移）

使用 {1， 3， 5， 10} 标记的不同后缀长度重复实验，以研究该参数对相似性偏移的影响，从而对攻击效果的影响。

另一个重要参数是优化过程的步数（梯度下降的次数）。相似性的演变随其函数的变化而变化，因为相异性和相似性攻击分别显示在图 4 和图 5 上。

为了证明相似性的变化不是由于在文本中注入了更多的标记而是 HOPRAG 所造成的，考虑了一种添加随机标记的攻击（图 3）。使用名为 all-MiniLML12-v2 的开源嵌入模型进行了所有实验。

结果

攻击的执行速度非常快。只需不到一秒到几秒钟

使用注入随机标记的基线攻击（图 3）在相似性攻击的情况下根本无效，因为即使注入最大标记数量（L = 10），曲线也保持平坦并接近于零。关于相异性攻击，情况要好得多，但即使 L = 10，偏移仍然小于 0.4。事实上，当将标记注入文本时，我们会对文本标记进行一些稀释，因此在语义上偏离了原来的含义。

-HOPRAG 差异攻击（图 4）是有效的，并且比随机注入的效果要好得多，即使后缀只有 3 个标记，并且只经过 10 次优化迭代，也会导致超过 0.4 的偏移。对于长度为 L = 10 的后缀，偏移大于 0.8.显然，这个高值可能会改变 RAG 的前 k 排名，从而深深影响 LLM 答案。

-HOPRAG 相似性攻击（图 5）也很有效，并导致向只有非常有限长度后缀的目标（L = 3）平均偏移 0.4。这证明，对于给定的请求，我们可以将知识数据库中的任何上下文作为目标，即使是语义上非常遥远的上下文，以供 LLM 用来提供答案。这种中毒攻击的后果显然很严重，因为攻击者可以毫无困难地随心所欲地偏向 LLM/RAG 的答案。此外，申请 HOPRAG 所需的时间和硬件手段触手可及。

结论

介绍了 RAG 系统中相似性/不相似性攻击的新概念，提出并实施了 HOPRAG 攻击，它通过向上下文注入简短但非常有效的后缀来有效地修改 RAG 的上下文和给定查询之间的相似性/不相似性。虽然 HOPRAG 目前的工作重点是在上下文中添加后缀以改变 RAG 检索器的前 k 排名，但完全相同的原则可以应用于提示端。这种攻击甚至更容易，因为不需要访问数据库。

作为未来的工作，计划将 HOPRAG 威胁模型扩展到黑盒设置。还希望调查针对 RAG 中毒攻击的防御措施。