Are Large Language Models Really Robust to Word-Level Perturbations?

本文是LLM系列文章,针对《Are Large Language Models Really Robust to Word-Level Perturbations?》的翻译。

大型语言模型真的对单词级扰动具有鲁棒性吗?

  • 摘要
  • [1 引言](#1 引言)
  • [2 相关工作](#2 相关工作)
  • [3 合理稳健性评价的奖励模型(TREvaL)](#3 合理稳健性评价的奖励模型(TREvaL))
  • [4 LLM的词级鲁棒性评价](#4 LLM的词级鲁棒性评价)
  • [5 讨论](#5 讨论)
  • [6 结论](#6 结论)
  • [7 局限性](#7 局限性)

摘要

大型语言模型(LLM)的规模和功能的迅速发展使其成为各种下游任务的有前途的工具。除了追求更好的性能和避免对某个提示的暴力反馈外,为了确保LLM的责任,LLM的稳健性也受到了关注。然而,现有的评估方法大多依赖于具有预定义监督标签的传统问答数据集,这与当代LLM的优越生成能力不符。为了解决这个问题,我们提出了一种新的理性评估方法,该方法利用预先训练的奖励模型作为诊断工具,来评估LLM从更具挑战性的开放问题中产生的较长对话,我们称之为合理稳健性评估的奖励模型(TREvaL)。较长的对话表明,就理解问题的熟练程度而言,他们对语言模型的全面掌握,而这一能力并不完全包含在单个单词或字母中,这可能表现出过于简单化和固有的偏见。我们广泛的经验实验表明,TREvaL为评估LLM的稳健性提供了一种创新的方法。此外,我们的研究结果表明,LLM经常表现出对日常语言使用中常见的单词级扰动的脆弱性。值得注意的是,我们惊讶地发现,随着微调(SFT和RLHF)的进行,鲁棒性往往会降低。TREvaL的代码可在https://github.com/Harry-mic/TREvaL上找到。

1 引言

2 相关工作

3 合理稳健性评价的奖励模型(TREvaL)

4 LLM的词级鲁棒性评价

5 讨论

6 结论

在本文中,我们引入了第一个开放问题基准:合理稳健性评估的奖励模型(TREvaL)来评估LLM的稳健性。我们进行了全面的实验来研究这个问题,并证明现有的LLM不够稳健是一个真实的命题。此外,我们还发现在整个微调过程中,模型的稳健性有所下降。为了验证我们的发现,我们描绘了Beaver不同阶段的景观,并证实了我们的推测。我们指出了改进SFT和RLHF训练范式以确保新LLM代的稳定性以及注意膨胀参数的影响的重要性。为了促进该领域的进一步探索,我们在GitHub Repo中开源了我们的代码和选定的数据集。

7 局限性

奖励模型 奖励模型只是人类意图的一个缩影。不管奖励模型的大小,它不可避免地与人类的意图存在一定程度的偏差。然而,一个无可争议的事实仍然存在:奖励模型的能力越强,它就越能符合人类的意图。因此,我们选择尽可能大的奖励模型作为我们的评估者。然而,随着大型语言模型(LLM)的不断发展,不可避免地会出现更大、更优秀的开源奖励模型。
数据集 本研究中使用的开放式问题经过仔细选择。然而,这些问题的数量及其分布仍然有限。
扰动 本研究中的扰动程度分为三个层次。然而,要获得更精确的结果,就必须采用更高水平的扰动严重性。此外,单词级扰动的格式也是有限的。除了拼写错误、交换和同义词替换之外,还应该考虑其他格式。
无害鲁棒性值得注意的是,我们进行的扰动不会导致无害鲁棒性的不稳定性。其中一个原因是,扰动是为了评估有用性的稳健性,而不是使用技术来诱导模型产生毒性反应。因此,在评估无害稳健性时,我们的方法可能还不够准确和有力。随后的努力可能包括制定明确定制的攻击方法,以增强无害性的稳健性。

相关推荐
矢量赛奇11 分钟前
比ChatGPT更酷的AI工具
人工智能·ai·ai写作·视频
KuaFuAI19 分钟前
微软推出的AI无代码编程微应用平台GitHub Spark和国产AI原生无代码工具CodeFlying比到底咋样?
人工智能·github·aigc·ai编程·codeflying·github spark·自然语言开发软件
Make_magic28 分钟前
Git学习教程(更新中)
大数据·人工智能·git·elasticsearch·计算机视觉
shelly聊AI33 分钟前
语音识别原理:AI 是如何听懂人类声音的
人工智能·语音识别
源于花海36 分钟前
论文学习(四) | 基于数据驱动的锂离子电池健康状态估计和剩余使用寿命预测
论文阅读·人工智能·学习·论文笔记
雷龙发展:Leah36 分钟前
离线语音识别自定义功能怎么用?
人工智能·音频·语音识别·信号处理·模块测试
4v1d40 分钟前
边缘计算的学习
人工智能·学习·边缘计算
风之馨技术录44 分钟前
智谱AI清影升级:引领AI视频进入音效新时代
人工智能·音视频
sniper_fandc1 小时前
深度学习基础—Seq2Seq模型
人工智能·深度学习
goomind1 小时前
深度学习模型评价指标介绍
人工智能·python·深度学习·计算机视觉