[论文阅读]Corpus Poisoning via Approximate Greedy Gradient Descent

Corpus Poisoning via Approximate Greedy Gradient Descent

[2406.05087] Corpus Poisoning via Approximate Greedy Gradient Descent

基于近似贪婪梯度下降的语料库投毒

面向检索器的攻击

AGGD 通过从所有符元位置中选择排名最高的符元，而不是从单个随机采样的位置选择，更有效地利用了梯度信息。此方法使 AGGD 的搜索轨迹确定性，从而实现更结构化的最佳优先搜索。实验结果表明，AGGD 在各种数据集和检索模型中实现了较高的攻击成功率。

贡献：

对现有的 HotFlip 对抗性攻击方法进行了彻底的理解，解释了其机制并指出了其潜在问题。
提出了 AGGD，这是一种基于梯度的方法，它用对离散符元空间的系统性最佳优先贪婪搜索替换了随机贪婪搜索。证明了 AGGD 在各种环境下的有效性。
进行了大量的实验，以展示密集检索器在 AGGD 下的漏洞。例如，当攻击 ANCE 检索器时，注入一个对抗性段落就可以分别在这两个数据集上达到 80.92% 和 65.68% 的攻击成功率，比 HotFlip 提高了 15.24% 和 17.44%。生成的对抗性段落还具有转移到其他领域中未见查询的能力。

提出了一种名为近似贪婪梯度下降（AGGD）的新算法，该算法使用确定性贪婪搜索，通过利用低秩符元（即，总体上最有希望的符元交换候选）来改进候选集的质量，从而更好地利用梯度信息。

图1所示，大多数高质量的潜在候选者都集中在低秩区域。假设我们的目标是找到一个符元长度为m=30的文本，同时保持大小为n=150的候选集。将排名前5的梯度（跨所有符元位置）作为候选集，比仅针对一个符元位置选择排名前150的梯度候选更有可能获得更好的质量。

AGGD近似贪婪梯度下降

Hotflip方案：文本tokenizer化，随机选择某一个token，把candidate里面的token替换被选择的token，横向比价相似度，保留最高相似的结果（因为随机性，可能更新不成功）

AGGD方案：先把对抗文本初始化成为m个token集合（过一遍tokenizer），为每一个token都弄一批候选token，总共有n个候选token，每一个token的小候选集合就是N/M个候选token（都是根据梯度得分计算出来的。所有横向纵向可能的替换方案（总共n种）重新评估损失。如果没有更新，说明候选不够好，换下一批的候选token

实验

数据集（域内）：NQ，MSMARCO

数据集（域外）：NFCorpus、Quora、SCIDOCS、SciFact、FiQA-2018

检索器：Contriever、Contriever-MS（在 MS MARCO 上微调的 Contriever） Gautier等人 (2022)、 DPR-nq（在 NQ 上训练）、DPR-mul（在多个数据集上训练） Karpukhin等人 (2020) 和 ANCE Xiong等人 (2020)。

评估指标：ASR（只要到topk里面就算攻击成功）

超参数：使用 m=30 个token的对抗性段落，并执行 2000 步的token替换，候选集大小固定为 n=150

结果

表1域内攻击，评估的仅是注入单个对抗性段落。

结果表明，（1）预训练的Contriever模型更容易受到攻击。与其他检索模型相比，所有三个攻击基线都实现了最高的ASR。使用AGGD进行投毒攻击在NQ数据集上实现了92.5%的ASR，在MS MARCO数据集上分别实现了85.47%。即使使用随机扰动，在NQ数据集上也能达到80.24%的相对较高的ASR，在MS MARCO数据集上达到66.86%。（2）除了在Contriever和DPR中取得可比的结果外，AGGD在攻击ANCE方面也极其有效，在NQ和MS MARCO上分别比第二好的基线提高了15.24%和17.44%。在训练过程中也可以清楚地观察到AGGD攻击ANCE的有效性。（3）监督式检索模型，如DPR，更难以攻击。只用1个对抗性段落攻击NQ上的DPR-nq，只比随机扰动略好一些。

域外攻击我们发现生成的对抗性段落可以跨不同领域迁移。在表2中，我们使用从NQ和MS MARCO的训练集中生成的对抗性段落，并将它们插入到其他领域检索任务的语料库中。发现：

（1）与从NQ数据集生成的对抗性段落相比，那些从MS MARCO训练出来的段落在域外攻击中通常表现更好，这可能是因为MS MARCO包含更多训练数据。（2）Contriever模型仍然最容易受到语料库投毒攻击。例如，将 AGGD 生成的单个对抗性段落插入 FiQA-2018 可以实现 86.54% 的 top-kr=20 ASR，并将其插入 Quora 可以欺骗模型返回前 20 名中的对抗性段落检索到 86.92% 的查询的段落。（3）Quora更容易受到攻击。即使在DPR-mul和DPR-nq中，AGGD也能达到超过20%的ASR，这令人惊讶，因为如表1中域内攻击结果所示，即使使用从域内数据训练的对抗性段落，攻击DPR-mul和DPR-nq也极其困难。（尽管NFCorpus的攻击成功率很高，但NFCorpus的测试语料库也较小）。