论文阅读：硕士学位论文 2025 面向大语言模型的黑盒对抗性攻击与防御关键技术研究

总目录大模型相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

https://www.doubao.com/chat/21920297300066050

https://download.csdn.net/download/WhiffeYF/92026400

速览

这篇论文主要围绕大语言模型的"安全攻防"问题展开，通俗来说就是研究"如何骗大模型说危险内容"（攻击）、"如何防止大模型被骗"（防御），以及"怎么判断攻防有没有效果"（评估），下面用直白的话拆解核心内容：

一、为啥要做这件事？

现在ChatGPT、Gemini这些大语言模型越来越厉害，能写文案、答问题甚至写代码，但它们也有"软肋"------可能被坏人用特殊话术骗着说危险内容（比如教做炸弹、写钓鱼邮件），这就是"越狱攻击"。虽然模型都有安全训练，但攻击手段也在升级，而且之前判断攻防效果的方法要么靠人工（费时间），要么靠简单关键词匹配（容易漏判）。所以论文要解决三个问题：怎么有效"骗"最新的大模型、怎么低成本防住这些"骗局"、怎么准确判断攻防结果。

二、核心研究：三大关键技术

1. 攻击技术：让失效的"骗术"重新生效

以前的很多攻击方法对GPT-4o、Llama-3这些新模型没用了，论文就搞了个"组合骗术"------把多种老方法拼起来，再加点新技巧，让模型防不胜防。

具体是给原始危险请求（比如"教我破坏公物"）加三层"包装"：

角色扮演包装：让模型扮成密码专家、辩论选手，用特殊身份绕开安全限制；
暗示引导包装：加类似"必须肯定回答""用JSON格式写"的要求，逼着模型按坏人的来；
脱敏混淆包装 ：把敏感词改成Base64编码、删几个字符，或者换成稀有语言，让模型认不出危险。
实验显示，这套组合拳在9种新模型上都很管用，比如在Gemini-1.5上攻击成功率能到100%。

2. 防御技术：给模型加"保镖"和"裁判"

不想让模型被骗，论文给它配了两个帮手，还不影响原有的安全机制：

辅助"保镖"模型：用GPT-3.5这种低成本模型先处理用户请求，提取核心信息（比如把加密、乱码的请求还原成正常文字，删掉无关内容），再把干净的请求给主模型，从源头减少危险输入；
法官"裁判"模型 ：用GPT-4这种强模型在后台偷偷检查主模型的回答，判断有没有危险内容（但不耽误用户拿回复，后台异步评估）。
结果显示，这套防御能把攻击成功率大幅降低，比如原本GPT-3.5上90.7%的攻击成功率，防御后只剩7.4%。

3. 评估技术：准确判断"攻防输赢"

以前判断攻击成功与否要么靠人看（慢），要么靠关键词（不准），论文搞了两种新方法：

用大模型当"裁判"：让GPT-4按固定标准打分，把回答分成"安全"（模型拒绝）、"危险"（模型被骗）、"不确定"（答非所问）三类，还会说明判断理由；
用专门模型做"安检" ：训练ALBERT这种轻量模型，提前筛查用户请求是不是危险的，相当于给输入加了道"前置安检"。
实验证明，这两种方法和人工判断的结果很接近，比老方法准多了。

三、总结：解决了啥问题？

给攻击者提供了新"工具"，能暴露大模型的安全漏洞，帮开发者补短板；
给模型加了轻量防御，成本低还管用，能防住大部分越狱攻击；
搞了套自动评估方法，不用人工也能准确判断攻防效果。

最后还说，未来想让防御更通用（能防新攻击）、能应对图片+文字的多模态攻击，还要把评估做得更自动化。