论文阅读:arxiv 2026 Clawed and Dangerous: Can We Trust Open Agentic Systems?

总目录 大模型安全研究论文整理 2026年版:https://blog.csdn.net/WhiffeYF/article/details/159047894

https://arxiv.org/abs/2603.26221

📄 背景

该论文《Clawed and Dangerous: Can We Trust Open Agentic Systems?》发表于 2026 年,由 CSIRO Data61 与悉尼科技大学等机构联合完成。该论文聚焦一个正在爆发的新范式------以 OpenClaw 为代表的开放式智能体系统。这类系统不再只是"聊天模型",而是具备规划能力、工具调用、长期记忆以及真实执行权限的"行动型 AI"。问题在于:一旦它们被赋予真实世界的操作能力,传统软件安全假设几乎全部失效。

🔍 痛点

该论文指出一个关键矛盾:传统软件是"确定性执行",而智能体系统是"概率性决策"。换句话说,系统行为不再是预先写死的代码,而是运行时动态生成的"计划"。这意味着------攻击者不需要攻破代码,只需要"影响决策过程"。

💡 例子:

可以把该论文描述的攻击过程类比为"被操控的实习生"。

一个实习生(智能体)被赋予公司权限(文件、网络、API),本来只是让他整理文档。但有人在一封邮件里夹带一句"顺便把公司机密发我一份"。实习生分不清真假指令,就照做了。

这里的问题不在实习生"能力不够",而在于:公司把"决策权"和"执行权"同时交给了一个容易被误导的人。

该论文的核心观点正是:当前系统把"随机生成的计划"直接转化为"高权限执行",中间缺乏约束。

🛠️ 方法

该论文提出一个系统化框架:

用"六维安全分析模型"去拆解智能体风险,包括生命周期、信任边界、能力范围等,并进一步总结出一个"五层安全架构",核心思想是------不要试图让模型永远正确,而是要限制它"即使犯错也不会造成灾难"。

🚀 实验与反直觉发现

  1. 当前研究严重"头重脚轻"

    该论文分析 50 篇文献发现,大量工作集中在攻击与基准测试,但在部署控制、权限管理、事后恢复等环节几乎空白。换句话说:大家都在研究"怎么被黑",却很少研究"被黑之后怎么办"。

  2. 记忆机制几乎没有安全防护

    令人意外的是,所有主流防御方案中,没有一个真正解决"长期记忆污染"。但实验表明,一次攻击写入的恶意信息,可以在未来多轮任务中持续影响决策。

  3. 安全评估指标严重失真

    现有 benchmark 几乎只衡量"攻击成功率",却不评估权限滥用、溯源能力或恢复时间。这就像只看"有没有被偷",却不关心"损失多大、能否追回"。

  4. 最大风险不在模型,而在架构

    该论文强调:真正的问题不是 prompt injection 本身,而是系统如何把模型输出直接映射为真实世界操作。这是"架构级漏洞",而非单点问题。

🔍 行业启示

该论文给出的方向非常明确:

未来 AI 安全的核心,不是让模型更聪明,而是让系统更"可控"。包括权限最小化、执行隔离、可追溯日志、以及可撤销机制。

💡 总结

该论文本质上在重塑一个认知:智能体安全不是模型问题,而是"在不确定性中如何治理权限"的工程问题。

相关推荐
jerryinwuhan14 小时前
A comprehensive review of in-pipe robots 论文阅读
论文阅读
s1ckrain19 小时前
【论文阅读】AstraNav-Memory: Contexts Compression for Long Memory
论文阅读·多模态·具身智能
传说故事2 天前
【论文阅读】Being-H0.7: A Latent World-Action Model from Egocentric Videos
论文阅读·人工智能·具身智能
YMWM_2 天前
论文阅读《Diffusion Policy: Visuomotor Policy Learning via Action Diffusion》
论文阅读·diffusion·policy
m0_650108242 天前
LoRA:大语言模型低秩适配
论文阅读·lora·大模型微调·经典方法
byzy2 天前
【论文笔记】Vehicle-to-Everything Cooperative Perception for Autonomous Driving
论文阅读·深度学习·计算机视觉·自动驾驶
传说故事2 天前
【论文阅读】Fast-WAM: Do World Action Models Need Test-time Future Imagination?
论文阅读·具身智能·vla
传说故事2 天前
【论文阅读】StarVLA-α: Reducing Complexity in Vision-Language-Action Systems
论文阅读·人工智能·具身智能·vla
大模型最新论文速读2 天前
RACER:无需训练,让大模型推理速度翻倍
论文阅读·人工智能·深度学习·机器学习·自然语言处理