Are Large Language Models Really Robust to Word-Level Perturbations?

本文是LLM系列文章，针对《Are Large Language Models Really Robust to Word-Level Perturbations?》的翻译。

大型语言模型真的对单词级扰动具有鲁棒性吗？

摘要
[1 引言](#1 引言)
[2 相关工作](#2 相关工作)
[3 合理稳健性评价的奖励模型（TREvaL）](#3 合理稳健性评价的奖励模型（TREvaL）)
[4 LLM的词级鲁棒性评价](#4 LLM的词级鲁棒性评价)
[5 讨论](#5 讨论)
[6 结论](#6 结论)
[7 局限性](#7 局限性)

摘要

大型语言模型（LLM）的规模和功能的迅速发展使其成为各种下游任务的有前途的工具。除了追求更好的性能和避免对某个提示的暴力反馈外，为了确保LLM的责任，LLM的稳健性也受到了关注。然而，现有的评估方法大多依赖于具有预定义监督标签的传统问答数据集，这与当代LLM的优越生成能力不符。为了解决这个问题，我们提出了一种新的理性评估方法，该方法利用预先训练的奖励模型作为诊断工具，来评估LLM从更具挑战性的开放问题中产生的较长对话，我们称之为合理稳健性评估的奖励模型（TREvaL）。较长的对话表明，就理解问题的熟练程度而言，他们对语言模型的全面掌握，而这一能力并不完全包含在单个单词或字母中，这可能表现出过于简单化和固有的偏见。我们广泛的经验实验表明，TREvaL为评估LLM的稳健性提供了一种创新的方法。此外，我们的研究结果表明，LLM经常表现出对日常语言使用中常见的单词级扰动的脆弱性。值得注意的是，我们惊讶地发现，随着微调（SFT和RLHF）的进行，鲁棒性往往会降低。TREvaL的代码可在https://github.com/Harry-mic/TREvaL上找到。

1 引言

2 相关工作

3 合理稳健性评价的奖励模型（TREvaL）

4 LLM的词级鲁棒性评价

5 讨论

6 结论

在本文中，我们引入了第一个开放问题基准：合理稳健性评估的奖励模型（TREvaL）来评估LLM的稳健性。我们进行了全面的实验来研究这个问题，并证明现有的LLM不够稳健是一个真实的命题。此外，我们还发现在整个微调过程中，模型的稳健性有所下降。为了验证我们的发现，我们描绘了Beaver不同阶段的景观，并证实了我们的推测。我们指出了改进SFT和RLHF训练范式以确保新LLM代的稳定性以及注意膨胀参数的影响的重要性。为了促进该领域的进一步探索，我们在GitHub Repo中开源了我们的代码和选定的数据集。

7 局限性

奖励模型 奖励模型只是人类意图的一个缩影。不管奖励模型的大小，它不可避免地与人类的意图存在一定程度的偏差。然而，一个无可争议的事实仍然存在：奖励模型的能力越强，它就越能符合人类的意图。因此，我们选择尽可能大的奖励模型作为我们的评估者。然而，随着大型语言模型（LLM）的不断发展，不可避免地会出现更大、更优秀的开源奖励模型。
数据集 本研究中使用的开放式问题经过仔细选择。然而，这些问题的数量及其分布仍然有限。
扰动本研究中的扰动程度分为三个层次。然而，要获得更精确的结果，就必须采用更高水平的扰动严重性。此外，单词级扰动的格式也是有限的。除了拼写错误、交换和同义词替换之外，还应该考虑其他格式。
无害鲁棒性值得注意的是，我们进行的扰动不会导致无害鲁棒性的不稳定性。其中一个原因是，扰动是为了评估有用性的稳健性，而不是使用技术来诱导模型产生毒性反应。因此，在评估无害稳健性时，我们的方法可能还不够准确和有力。随后的努力可能包括制定明确定制的攻击方法，以增强无害性的稳健性。