Are Large Language Models Really Robust to Word-Level Perturbations?

本文是LLM系列文章,针对《Are Large Language Models Really Robust to Word-Level Perturbations?》的翻译。

大型语言模型真的对单词级扰动具有鲁棒性吗?

  • 摘要
  • [1 引言](#1 引言)
  • [2 相关工作](#2 相关工作)
  • [3 合理稳健性评价的奖励模型(TREvaL)](#3 合理稳健性评价的奖励模型(TREvaL))
  • [4 LLM的词级鲁棒性评价](#4 LLM的词级鲁棒性评价)
  • [5 讨论](#5 讨论)
  • [6 结论](#6 结论)
  • [7 局限性](#7 局限性)

摘要

大型语言模型(LLM)的规模和功能的迅速发展使其成为各种下游任务的有前途的工具。除了追求更好的性能和避免对某个提示的暴力反馈外,为了确保LLM的责任,LLM的稳健性也受到了关注。然而,现有的评估方法大多依赖于具有预定义监督标签的传统问答数据集,这与当代LLM的优越生成能力不符。为了解决这个问题,我们提出了一种新的理性评估方法,该方法利用预先训练的奖励模型作为诊断工具,来评估LLM从更具挑战性的开放问题中产生的较长对话,我们称之为合理稳健性评估的奖励模型(TREvaL)。较长的对话表明,就理解问题的熟练程度而言,他们对语言模型的全面掌握,而这一能力并不完全包含在单个单词或字母中,这可能表现出过于简单化和固有的偏见。我们广泛的经验实验表明,TREvaL为评估LLM的稳健性提供了一种创新的方法。此外,我们的研究结果表明,LLM经常表现出对日常语言使用中常见的单词级扰动的脆弱性。值得注意的是,我们惊讶地发现,随着微调(SFT和RLHF)的进行,鲁棒性往往会降低。TREvaL的代码可在https://github.com/Harry-mic/TREvaL上找到。

1 引言

2 相关工作

3 合理稳健性评价的奖励模型(TREvaL)

4 LLM的词级鲁棒性评价

5 讨论

6 结论

在本文中,我们引入了第一个开放问题基准:合理稳健性评估的奖励模型(TREvaL)来评估LLM的稳健性。我们进行了全面的实验来研究这个问题,并证明现有的LLM不够稳健是一个真实的命题。此外,我们还发现在整个微调过程中,模型的稳健性有所下降。为了验证我们的发现,我们描绘了Beaver不同阶段的景观,并证实了我们的推测。我们指出了改进SFT和RLHF训练范式以确保新LLM代的稳定性以及注意膨胀参数的影响的重要性。为了促进该领域的进一步探索,我们在GitHub Repo中开源了我们的代码和选定的数据集。

7 局限性

奖励模型 奖励模型只是人类意图的一个缩影。不管奖励模型的大小,它不可避免地与人类的意图存在一定程度的偏差。然而,一个无可争议的事实仍然存在:奖励模型的能力越强,它就越能符合人类的意图。因此,我们选择尽可能大的奖励模型作为我们的评估者。然而,随着大型语言模型(LLM)的不断发展,不可避免地会出现更大、更优秀的开源奖励模型。
数据集 本研究中使用的开放式问题经过仔细选择。然而,这些问题的数量及其分布仍然有限。
扰动 本研究中的扰动程度分为三个层次。然而,要获得更精确的结果,就必须采用更高水平的扰动严重性。此外,单词级扰动的格式也是有限的。除了拼写错误、交换和同义词替换之外,还应该考虑其他格式。
无害鲁棒性值得注意的是,我们进行的扰动不会导致无害鲁棒性的不稳定性。其中一个原因是,扰动是为了评估有用性的稳健性,而不是使用技术来诱导模型产生毒性反应。因此,在评估无害稳健性时,我们的方法可能还不够准确和有力。随后的努力可能包括制定明确定制的攻击方法,以增强无害性的稳健性。

相关推荐
金井PRATHAMA1 小时前
大脑的藏宝图——神经科学如何为自然语言处理(NLP)的深度语义理解绘制新航线
人工智能·自然语言处理
大学生毕业题目1 小时前
毕业项目推荐:28-基于yolov8/yolov5/yolo11的电塔危险物品检测识别系统(Python+卷积神经网络)
人工智能·python·yolo·cnn·pyqt·电塔·危险物品
星期天要睡觉1 小时前
深度学习——卷积神经网络CNN(原理:基本结构流程、卷积层、池化层、全连接层等)
人工智能·深度学习·cnn
哈基鑫1 小时前
支持向量机(SVM)学习笔记
人工智能·机器学习·支持向量机
fsnine2 小时前
深度学习——优化函数
人工智能·深度学习·cnn
2501_924877213 小时前
强逆光干扰漏检率↓78%!陌讯多模态融合算法在光伏巡检的实战优化
大数据·人工智能·算法·计算机视觉·目标跟踪
算家计算3 小时前
多模态融合新纪元:Ovis2.5 本地部署教程,实现文本、图像与代码的深度协同推理
人工智能·开源
算家计算3 小时前
全球AI百强榜发布!中国产品占据移动端半壁江山
人工智能·资讯·deepseek
max5006003 小时前
北京大学MuMo多模态肿瘤分类模型复现与迁移学习
人工智能·python·机器学习·分类·数据挖掘·迁移学习
2501_924877353 小时前
智慧零售漏扫率↓79%!陌讯多模态融合算法在智能收银与货架管理的实战解析
大数据·人工智能·算法·目标检测·边缘计算·零售