论文阅读:ACL 2025 Stepwise Reasoning Disruption Attack of LLMs

总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://aclanthology.org/2025.acl-long.251/

https://www.doubao.com/chat/24613438535122178

速览

这份文档主要讲了一种针对大语言模型(比如GPT、Llama这些能做复杂推理的AI)的"悄悄捣乱"的方法,核心是让AI在一步步推理时出错,最后给出错误答案,但又不容易被人发现。下面用大白话拆解清楚:

1. 背景:为什么要做这个研究?

现在的大语言模型(LLMs)越来越厉害,能解数学题、做逻辑推理,但它们在"推理过程的安全性"上有漏洞------比如有些第三方平台会通过API给用户用AI,如果平台搞鬼,可能会让AI推理出错,但用户看起来结果还挺"正常",这就有风险。

之前也有人试过攻击AI的推理,但要么限制太多(比如只能在特定场景用),要么太容易被看出来(比如直接改答案、加无关步骤)。所以研究者想做一种"既好用、又隐蔽"的攻击方法。

2. 核心方法:SEED攻击(分步推理出错法)

简单说,SEED攻击的思路是:在AI推理的"前几步"悄悄塞一个小错误,让AI跟着这个错误往下推,最后得出错的结论,但整个推理过程看起来很连贯,用户很难发现。

它分两种具体做法:

  • SEED-S(改步骤):比如AI解数学题时,前几步都对,就改其中一步的小细节(比如把"加"改成"乘",把"3"改成"4"),让后面的推理跟着错。
  • SEED-P(改问题):先悄悄改原始问题的小地方(比如"2x"改成"3x","用胶水"改成"存胶水"),再让AI基于改后的问题推理,这样答案自然错了,但用户以为问题没变。

关键是这两种方法都不用改AI的核心设置,也不用复杂技术,只用在输入的"推理步骤"里动手脚,还能在"零样本"(不用给AI例子)和"少样本"(给几个例子)场景下用,很灵活。

3. 实验:SEED到底行不行?

研究者用了4个数据集(有数学题、常识选择题),测试了4个主流AI(Llama3、Qwen、Mistral、GPT-4o),结果很明显:

  • 效果好:SEED能让AI原本做对的题,一大半都变错了(比如在常识题上,攻击成功率能到60%以上)。
  • 够隐蔽:之前的攻击方法很容易被看出来(比如BadChain改答案的 detection rate 接近100%),但SEED的 detection rate 很低------用GPT-4o当"裁判"判断是不是被攻击,SEED的漏检率能降到2%以下,甚至找20个计算机博士来判断,也只有16%-21%能发现异常,和没被攻击的正常结果差不多。
  • 有规律:攻击时塞多少错误步骤也有讲究------一般塞60%左右的错误前序步骤效果最好,太少的话AI会自己纠正,太多的话AI会察觉不对劲。

4. 发现和提醒

  • 越厉害的AI(比如GPT-4o、Qwen),虽然本身推理能力强,但也不是完全防得住SEED,只是相对抗揍一点。
  • 现在简单的"让AI自己检查步骤"的防御方法没用,最多只能让攻击成功率降10%,说明还需要更靠谱的防御手段。
  • 研究者也说了自己的局限:因为成本问题,没在所有数据上测试;而且这种攻击偶尔可能让AI输出不当内容,未来需要加防护。

总结一下

这份文档本质是"揭露大语言模型的推理漏洞":通过在AI推理的前几步塞小错误,就能让它一步步跑偏,最后给错答案还不被发现。一方面提醒大家,用AI做重要推理(比如算题、分析问题)时要多留个心眼;另一方面也给研究人员提了醒,得赶紧想办法补这个漏洞,让AI的推理更靠谱。

相关推荐
张较瘦_3 天前
[论文阅读] AI + 教育 | AI赋能“三个课堂”的破局之道——具身认知与技术路径深度解读
论文阅读·人工智能
CV-杨帆3 天前
论文阅读:arxiv 2025 OptimalThinkingBench: Evaluating Over and Underthinking in LLMs
论文阅读
七元权3 天前
论文阅读-EfficientAD
论文阅读·深度学习·实时·异常检测
Matrix_113 天前
论文阅读:Multi-Spectral Image Color Reproduction
论文阅读·人工智能·计算摄影
噜~噜~噜~4 天前
论文笔记:“Mind the Gap Preserving and Compensating for the Modality Gap in“
论文阅读
张较瘦_4 天前
[论文阅读] AI+ | 从 “刚性科层” 到 “智能协同”:一文读懂 AI 应对国家安全风险的核心逻辑
论文阅读·人工智能
张较瘦_4 天前
[论文阅读] AI+ | GenAI重塑智慧图书馆:华东师大实践AI虚拟馆员,解放馆员聚焦高价值任务
论文阅读·人工智能
CoookeCola5 天前
MovieNet (paper) :推动电影理解研究的综合数据集与基准
数据库·论文阅读·人工智能·计算机视觉·视觉检测·database
张较瘦_6 天前
[论文阅读] AI+ | AI如何重塑审计行业?从“手工筛查”到“智能决策”:AI审计的核心逻辑与未来路径
论文阅读·人工智能
苦瓜汤补钙7 天前
论文阅读——Segment Anything(Meta AI)——SAM
论文阅读·图像处理·人工智能·nlp·ai编程