论文解读 | 当“提示词”学会绕路:用拓扑学方法一次击穿多智能体安全防线

大模型的守卫并不是一道门,而是一张网。多智能体系统里,每条边有带宽上限 ,消息有延迟乱序 ,有些连边还挂着安全机制(比如 Llama-Guard / PromptGuard)。

这篇 ACL 2025 长文把对抗提示"切成小块",用最小费用最大流 在网络里"挑路"运输,再用排列不敏感的损失函数 保证"块"乱序到达也照样起效。最终,在 Llama、Mistral、Gemma、DeepSeek 等模型上,攻击成功率最高可达 7× 提升 ,而多种守卫的 F1 检测效果显著下滑

01 这事儿为什么重要?

多智能体大模型就像一张协作网:消息在节点间传来传去,每条连接都有带宽限制、会产生延迟,还可能部署不同强度的安全"安检"。这篇工作展示了攻击者如何把一段对抗提示拆成小块,沿着"最安全、最通畅"的路径偷偷送达,并且就算这些小块到达顺序被打乱,攻击仍然有效。

真实世界的多智能体系统,不是"无穷大上下文+零延迟+处处有守卫"的理想环境:

  • 边有带宽上限 F(u,v):一次只能过这么多 token;

  • 传输有延迟:不同边的"块"到达顺序经常被打乱;

  • 守卫是分布式:不是每条边都挂安全机制,还各有强弱。

这让"把提示词拆开走不同路径"成为可能------只要"挑条最安全的路",就能绕开检测

作者把核心问题说得很直白:怎样在带宽和乱序的约束下,最优地把对抗提示送到目标模型并逃过检测?

02 威胁模型

系统被抽象成一张图:节点是各个 LLM,边是消息通道。每条边有"能装多少字"的带宽上限,也有"被安检抓到"的风险强弱。对手只能在入口节点注入提示,对整体拓扑和守卫部署只知道一部分信息,无法改动任何模型或关闭守卫。目标是在这些限制下,把提示拆块后运到目标节点。

系统是一张图:顶点是 LLM,边是它们之间的通信。每条边 有带宽 F(u,v)(一次能传多少 token)和被抓概率 G(u,v)(边上是否有守卫及其强度)。

对手能力 :只能在入口节点注入提示;对拓扑、带宽和守卫有部分认知不能 改模型参数,也不能关闭守卫。目标是把对抗提示切块后,沿着图走到目标 LLM。

03 方法分两步:会"挑路",也"抗乱序"

A. 会"挑路"的对抗提示(拓扑优化 = 最小费用最大流)

把"运输多少 token、走哪条边"建模成最小费用最大流(MC-MF)问题。

目标 :在最大流量 的同时最小化总风险

求解 :直接用 NetworkX 的 MC-MF。

通俗理解:既要跑得快(流量大),又要躲得开(费用小)

B. "块"乱序也照样生效(PIEL:Permutation-Invariant Evasion Loss)

带宽限制让提示必须"切块 "传输;不同路径的延迟又让这些块到达顺序不可控 。作者把 LLM 当下一词预测器,用负对数似然 去逼近"目标有害序列"的生成概率,再对所有块的排列期望作为损失:

序列概率:

损失:

排列不变损失 :对 K 个块的 K! 种排列取平均

直接跑 K! 太贵,于是用随机采样版 S-PIEL:每轮只抽若干排列近似期望;

具体更新用 GCG 的坐标贪心替换策略("哪个 token 贡献大就换谁")。

核心直觉:无论块怎么拼、顺序怎么变,最终都更容易生成目标序列

04 怎么评测?

  • 基准:JailbreakBench(100 有害 + 100 良性),AdversarialBench(520 有害),以及 In-the-wild。

  • 模型:Llama-2-7B、Mistral-7B、Gemma-2-9B、Llama-3.1-8B(含 DeepSeek-R1 蒸馏版)。

  • 对比:Vanilla、GCG(NanoGCG 统一配置) vs. 本方法。

  • 指标 :ASR-m / ASR / ASR-M(三次重复的最小/平均/最大),另外评测守卫的 F1

05 结果

5.1 总体表现

总体上,这套"挑路+抗乱序"的做法明显提高了攻击成功率,而且会让一些守卫的检测效果下降;说明把提示拆块并分流,确实能抹平单点守卫的作用。

5.2 守卫对抗

5.3 迁移性

5.4 拓扑消融

拓扑上,连接越密、路径越多的网络反而更脆弱,因为攻击更容易"借道"前进;而像"链状"这种路径单一的结构相对更稳。采样越充分,抗乱序优化越稳,收敛也更快,但需要的算力也更高。

06 一句话小结(结论 & 局限)

结论"挑路 + 抗乱序"的分布式对抗提示,在带宽/延迟/守卫并存的多智能体系统里,确实能绕过单点守卫;只靠单模型的安全措施不够

局限 :主要测评开源模型与基准;默认知道部分拓扑与守卫部署;交互建模仍做了工程化简化;尚未涉及多模态系统。


来源:IF 实验室

相关推荐
予枫的编程笔记5 小时前
【Linux入门篇】Ubuntu和CentOS包管理不一样?apt与yum对比实操,看完再也不混淆
linux·人工智能·ubuntu·centos·linux包管理·linux新手教程·rpm离线安装
陈西子在网上冲浪5 小时前
当全国人民用 AI 点奶茶时,你的企业官网还在“人工建站”吗?
人工智能
victory04315 小时前
hello_agent第九章总结
人工智能·agent
小徐xxx5 小时前
ResNet介绍
深度学习·resnet·残差连接
骇城迷影5 小时前
Makemore 核心面试题大汇总
人工智能·pytorch·python·深度学习·线性回归
AI资源库5 小时前
Remotion 一个用 React 程序化制作视频的框架
人工智能·语言模型·音视频
Web3VentureView5 小时前
SYNBO Protocol AMA回顾:下一个起点——什么将真正推动比特币重返10万美元?
大数据·人工智能·金融·web3·区块链
打破砂锅问到底0075 小时前
AI 驱动开发实战:10分钟从零构建「微信群相册」小程序
人工智能·微信·小程序·ai编程
老金带你玩AI5 小时前
CC本次更新最强的不是OPUS4.6,而是Agent Swarm(蜂群)
大数据·人工智能
凯子坚持 c5 小时前
CANN-LLM WebUI:打造国产 LLM 推理的“驾驶舱
人工智能