论文总结:A Survey on Evaluation of Large Language Models-鲁棒性相关内容

A Survey on Evaluation of Large Language Models

只取了鲁棒性相关的内容

LLMs:《A Survey on Evaluation of Large Language Models大型语言模型评估综述》理解智能本质(具备推理能力)、AI评估的重要性(识别当前算法的局限性+设


3.2.1 Robustness鲁棒性:两方面考察(分布外泛化OOD+对抗鲁棒性)、评估ChatGPT(AdvGLUE+ANLI+DDXPlus+AdvGLUE++,PromptBench基准)、两方面脆弱(语言输入的对抗性提示+视觉输入)

评估系统面对意外输入的稳定性是鲁棒性研究的核心,主要从对抗鲁棒性和出分布泛化两方面考察大语言模型,发现当前模型对对抗性提示和视觉输入显著脆弱,提示模型在部署中面临安全隐患,需要继续提高模型的鲁棒性。

鲁棒性研究系统在面对意外输入时的稳定性。

具体来说,分布外(out- distribution, OOD) (Wang et al., 2022)和对抗性鲁棒性是鲁棒性的两个热门研究课题。Wang等人(2023c)是一项早期工作,使用AdvGLUE (Wang等人,2021)、ANLI (Nie等人,2019)和DDXPlus (Fansi Tchango等人,2022)数据集等现有基准,从对抗性和OOD角度评估了ChatGPT和其他LLMs。卓等人(2023b)评估了语义解析的鲁棒性。Yang等人(2022)通过扩展GLUE (Wang等人,2018)数据集来评估OOD的鲁棒性。本研究的结果强调了当操纵视觉输入时对整个系统安全的潜在风险。

对于视觉语言模型,Zhao等人(2023b)对视觉输入上的LLMs进行了评估,并将其转移到其他视觉语言模型上,揭示了视觉输入的脆弱性。

Li等人(2023b)概述了语言模型的OOD评估:对抗性鲁棒性、领域泛化和数据集偏差。作者对三个研究线进行了比较和统一,总结了每个研究线的数据生成过程和评估方案,并强调了未来工作的挑战和机遇。

对于对抗鲁棒性,朱等人(2023)通过提出一个名为PromptBench的统一基准,评估了LLM对提示的鲁棒性。他们全面评估了多个级别(字符、单词、句子和语义)的对抗性文本攻击。结果表明,当面对对抗性输入时,现代LLM容易受到对抗性提示的攻击,强调了模型的鲁棒性的重要性。至于新的对抗性数据集,王等人(2023a)引入了AdvGLUE++基准数据集来评估对抗鲁棒性,并实施了一个新的评估协议,通过越狱系统提示来审查机器道德。

相关推荐
机器学习之心HML12 分钟前
Transformer编码器+SHAP分析,模型可解释创新表达!
人工智能·深度学习·transformer
多巴胺与内啡肽.16 分钟前
OpenCV进阶操作:角点检测
人工智能·opencv·计算机视觉
鸿蒙布道师19 分钟前
ChatGPT深度研究功能革新:GitHub直连与强化微调
人工智能·深度学习·神经网络·自然语言处理·chatgpt·数据挖掘·github
小刘私坊19 分钟前
人工智能与生命科学的深度融合:破解生物医学难题,引领未来科技革命
人工智能·科技
Navicat中国1 小时前
Navicat BI 数据分析功能上线 | 数据洞察新方法
数据库·人工智能·信息可视化·数据挖掘·数据分析·navicat·bi
kovlistudio1 小时前
机器学习第二讲:对比传统编程:解决复杂规则场景
人工智能·机器学习
audyxiao0011 小时前
人工智能顶会ICLR 2025论文分享│PointOBB-v2:更简单、更快、更强的单点监督有向目标检测
人工智能·目标检测·计算机视觉·数据挖掘·主成分分析·单点监督
AI糊涂是福2 小时前
切片和边缘计算技术分析报告
人工智能·边缘计算
AI大模型顾潇2 小时前
[特殊字符] Milvus + LLM大模型:打造智能电影知识库系统
数据库·人工智能·机器学习·大模型·llm·llama·milvus
鸿蒙布道师2 小时前
AI原生手机:三大技术阵营的终极对决与未来展望
android·人工智能·ios·华为·智能手机·ai-native·hauwei