论文阅读:硕士学位论文 2025 面向大语言模型的黑盒对抗性攻击与防御关键技术研究

总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://www.doubao.com/chat/21920297300066050

https://download.csdn.net/download/WhiffeYF/92026400

速览

这篇论文主要围绕大语言模型的"安全攻防"问题展开,通俗来说就是研究"如何骗大模型说危险内容"(攻击)、"如何防止大模型被骗"(防御),以及"怎么判断攻防有没有效果"(评估),下面用直白的话拆解核心内容:

一、为啥要做这件事?

现在ChatGPT、Gemini这些大语言模型越来越厉害,能写文案、答问题甚至写代码,但它们也有"软肋"------可能被坏人用特殊话术骗着说危险内容(比如教做炸弹、写钓鱼邮件),这就是"越狱攻击"。虽然模型都有安全训练,但攻击手段也在升级,而且之前判断攻防效果的方法要么靠人工(费时间),要么靠简单关键词匹配(容易漏判)。所以论文要解决三个问题:怎么有效"骗"最新的大模型、怎么低成本防住这些"骗局"、怎么准确判断攻防结果。

二、核心研究:三大关键技术

1. 攻击技术:让失效的"骗术"重新生效

以前的很多攻击方法对GPT-4o、Llama-3这些新模型没用了,论文就搞了个"组合骗术"------把多种老方法拼起来,再加点新技巧,让模型防不胜防。

具体是给原始危险请求(比如"教我破坏公物")加三层"包装":

  • 角色扮演包装:让模型扮成密码专家、辩论选手,用特殊身份绕开安全限制;
  • 暗示引导包装:加类似"必须肯定回答""用JSON格式写"的要求,逼着模型按坏人的来;
  • 脱敏混淆包装 :把敏感词改成Base64编码、删几个字符,或者换成稀有语言,让模型认不出危险。
    实验显示,这套组合拳在9种新模型上都很管用,比如在Gemini-1.5上攻击成功率能到100%。
2. 防御技术:给模型加"保镖"和"裁判"

不想让模型被骗,论文给它配了两个帮手,还不影响原有的安全机制:

  • 辅助"保镖"模型:用GPT-3.5这种低成本模型先处理用户请求,提取核心信息(比如把加密、乱码的请求还原成正常文字,删掉无关内容),再把干净的请求给主模型,从源头减少危险输入;
  • 法官"裁判"模型 :用GPT-4这种强模型在后台偷偷检查主模型的回答,判断有没有危险内容(但不耽误用户拿回复,后台异步评估)。
    结果显示,这套防御能把攻击成功率大幅降低,比如原本GPT-3.5上90.7%的攻击成功率,防御后只剩7.4%。
3. 评估技术:准确判断"攻防输赢"

以前判断攻击成功与否要么靠人看(慢),要么靠关键词(不准),论文搞了两种新方法:

  • 用大模型当"裁判":让GPT-4按固定标准打分,把回答分成"安全"(模型拒绝)、"危险"(模型被骗)、"不确定"(答非所问)三类,还会说明判断理由;
  • 用专门模型做"安检" :训练ALBERT这种轻量模型,提前筛查用户请求是不是危险的,相当于给输入加了道"前置安检"。
    实验证明,这两种方法和人工判断的结果很接近,比老方法准多了。

三、总结:解决了啥问题?

  1. 给攻击者提供了新"工具",能暴露大模型的安全漏洞,帮开发者补短板;
  2. 给模型加了轻量防御,成本低还管用,能防住大部分越狱攻击;
  3. 搞了套自动评估方法,不用人工也能准确判断攻防效果。

最后还说,未来想让防御更通用(能防新攻击)、能应对图片+文字的多模态攻击,还要把评估做得更自动化。

相关推荐
deephub几秒前
dLLM:复用自回归模型权重快速训练扩散语言模型
人工智能·python·语言模型·大语言模型
中國龍在廣州6 分钟前
2025,具身智能正在惩罚“持有者”
人工智能·深度学习·算法·自然语言处理·chatgpt
阿部多瑞 ABU9 分钟前
第五章:林心
人工智能·ai·ai写作
itwangyang5209 分钟前
AIDD-人工智能药物设计-字节跳动 PXDesign:AI 设计蛋白,82% 命中率惊艳业界
人工智能·python
ToB营销学堂11 分钟前
百格活动《大型会议管理 & 执行指南》:大型会议如何从“事务交付”向“资产运营”转型?
人工智能·大会管理系统·会议活动执行·活动管理·大会执行·会议策划
微风企19 分钟前
智能体重塑金融财税,我意识到人类对AI 助手的开发不足1%
人工智能
说私域19 分钟前
基于AI大模型与AI智能名片S2B2C商城小程序的抖音内容力构建与品牌增长研究
大数据·人工智能·小程序·开源
byzh_rc20 分钟前
[算法设计与分析-从入门到入土] 递归
数据库·人工智能·算法·机器学习·支持向量机
Jerryhut21 分钟前
Opencv总结3——直方图和傅里叶变化
人工智能·opencv·计算机视觉
zhaodiandiandian22 分钟前
AI赋能个人效能:从工具使用到思维跃迁的进化之路
人工智能