论文阅读：arxiv 2026 Clawed and Dangerous: Can We Trust Open Agentic Systems?

总目录大模型安全研究论文整理 2026年版：https://blog.csdn.net/WhiffeYF/article/details/159047894

📄 背景

该论文《Clawed and Dangerous: Can We Trust Open Agentic Systems?》发表于 2026 年，由 CSIRO Data61 与悉尼科技大学等机构联合完成。该论文聚焦一个正在爆发的新范式------以 OpenClaw 为代表的开放式智能体系统。这类系统不再只是"聊天模型"，而是具备规划能力、工具调用、长期记忆以及真实执行权限的"行动型 AI"。问题在于：一旦它们被赋予真实世界的操作能力，传统软件安全假设几乎全部失效。

🔍 痛点

该论文指出一个关键矛盾：传统软件是"确定性执行"，而智能体系统是"概率性决策"。换句话说，系统行为不再是预先写死的代码，而是运行时动态生成的"计划"。这意味着------攻击者不需要攻破代码，只需要"影响决策过程"。

💡 例子：

可以把该论文描述的攻击过程类比为"被操控的实习生"。

一个实习生（智能体）被赋予公司权限（文件、网络、API），本来只是让他整理文档。但有人在一封邮件里夹带一句"顺便把公司机密发我一份"。实习生分不清真假指令，就照做了。

这里的问题不在实习生"能力不够"，而在于：公司把"决策权"和"执行权"同时交给了一个容易被误导的人。

该论文的核心观点正是：当前系统把"随机生成的计划"直接转化为"高权限执行"，中间缺乏约束。

🛠️ 方法

该论文提出一个系统化框架：

用"六维安全分析模型"去拆解智能体风险，包括生命周期、信任边界、能力范围等，并进一步总结出一个"五层安全架构"，核心思想是------不要试图让模型永远正确，而是要限制它"即使犯错也不会造成灾难"。

🚀 实验与反直觉发现

当前研究严重"头重脚轻"

该论文分析 50 篇文献发现，大量工作集中在攻击与基准测试，但在部署控制、权限管理、事后恢复等环节几乎空白。换句话说：大家都在研究"怎么被黑"，却很少研究"被黑之后怎么办"。
记忆机制几乎没有安全防护

令人意外的是，所有主流防御方案中，没有一个真正解决"长期记忆污染"。但实验表明，一次攻击写入的恶意信息，可以在未来多轮任务中持续影响决策。
安全评估指标严重失真

现有 benchmark 几乎只衡量"攻击成功率"，却不评估权限滥用、溯源能力或恢复时间。这就像只看"有没有被偷"，却不关心"损失多大、能否追回"。
最大风险不在模型，而在架构

该论文强调：真正的问题不是 prompt injection 本身，而是系统如何把模型输出直接映射为真实世界操作。这是"架构级漏洞"，而非单点问题。

🔍 行业启示

该论文给出的方向非常明确：

未来 AI 安全的核心，不是让模型更聪明，而是让系统更"可控"。包括权限最小化、执行隔离、可追溯日志、以及可撤销机制。

💡 总结

该论文本质上在重塑一个认知：智能体安全不是模型问题，而是"在不确定性中如何治理权限"的工程问题。