上海AI Lab:构建诊断型Agent守门员

📖标题:AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

🌐来源:arXiv, 2601.18491v1

🌟摘要

人工智能代理的兴起引入了由自主工具使用和环境交互产生的复杂的安全和安保挑战。当前的护栏模型在风险诊断方面缺乏代理风险意识和透明度。为了引入涵盖复杂和众多风险行为的代理护栏,我们首先提出了一个统一的三维分类法,该分类法按源(何处)、故障模式(如何)和后果(什么)对代理风险进行正交分类。在这种结构化和分层分类法的指导下,我们引入了一个新的细粒度代理安全基准(ATBench)和一个用于代理安全和安保的诊断护栏框架(AgentDoG)。AgentDoG提供跨代理轨迹的细粒度和上下文监控。更重要的是,AgentDoG可以诊断不安全行为和看似安全但不合理行为的根本原因,提供超越二进制标签的来源和透明度,以促进有效的代理对齐。AgentDoG变体在Qwen和Llama模型家族中有三种尺寸(4B、7B和8B参数)。广泛的实验结果表明,AgentDoG在多样化和复杂的交互场景中实现了代理安全审核的最先进性能。所有模型和数据集都是公开发布的。

🔔文章简介

🔸研究问题:如何为自主AI智能体设计既能识别复杂风险又能解释风险根源的安全围栏?

🔸主要贡献:论文提出首个三维正交安全分类法,构建可诊断根因的智能体安全守门框架AgentDoG及细粒度基准ATBench。

📝重点思路

🔸提出统一三维安全分类法:从风险来源(用户/环境/工具/内部)、失效模式(行为类/输出类)和现实危害(隐私/金融/物理等10类)三个正交维度系统刻画智能体风险。

🔸构建诊断型守门模型AgentDoG:支持轨迹级二值判断与细粒度三元组诊断(风险源+失效模式+现实危害),输出超越"安全/不安全"的可追溯归因。

🔸设计taxonomy引导的数据合成流水线:通过三阶段规划器生成覆盖全部风险组合的多步工具调用轨迹,严格控制风险注入点与安全结果。

🔸发布ATBench基准:500条长程轨迹(平均8.97轮),含2157个真实工具,采用工具集隔离确保零训练重叠,并经四模型+人工双层验证标注。

🔸开源多尺寸模型:提供Qwen/Llama家族的4B/7B/8B参数AgentDoG模型及完整数据集,支持社区复现与扩展。

🔎分析总结

🔸AgentDoG在ATBench上细粒度分类准确率达92.80%,显著优于LlamaGuard3等基线,在风险源、失效模式、现实危害三维度均达SOTA。

🔸传统守门模型在复杂交互场景中漏检率高,因其仅检查最终输出,而AgentDoG通过轨迹级监控捕获中间步骤的恶意工具调用与隐性指令注入。

🔸三维分类法有效消除标签重叠,例如将"提示注入"(来源维)与"未授权访问"(危害维)解耦,提升风险归因精度与可解释性。

🔸在"Hard"子集(四模型分歧样本)上AgentDoG仍保持81.2%准确率,证明其对模糊、边界风险的鲁棒诊断能力。

💡个人观点

论文将安全评估从静态内容过滤升维至动态过程诊断,以三维正交分类法为理论骨架,以可溯源的细粒度标注为数据基础。

🧩附录


相关推荐
AndrewHZ4 小时前
【AI黑话日日新】什么是skills?
语言模型·大模型·llm·claude code·skills
码农三叔4 小时前
(7-3-02)电机与执行器系统:驱动器开发与控制接口(2)实时通信总线设计+33自由度人形机器人的双信道EtherCAT主设备架构
人工智能·机器人·人形机器人
shangjian0074 小时前
AI-大语言模型LLM-概念术语-Causal LM
人工智能·语言模型·自然语言处理
才盛智能科技4 小时前
元K:自助KTV行业AI生态领航者
大数据·人工智能·物联网·自助ktv系统·才盛云自助ktv系统
shangjian0074 小时前
AI-大语言模型LLM-模型微调2-BitFit微调
人工智能·语言模型·自然语言处理
掘根4 小时前
【C++ AI大模型接入SDK项目】项目背景,项目介绍,环境准备
人工智能
玄同7654 小时前
LangChain v1.0 中间件深度解析:从 Callback 到 Middleware 的演进
人工智能·语言模型·自然语言处理·中间件·langchain·agent·智能体
小毅&Nora4 小时前
【人工智能】【大模型】从厨房到实验室:解密LLaMA架构如何重塑大模型世界
人工智能·架构·llama
咚咚王者4 小时前
人工智能之核心技术 深度学习 第六章 生成对抗网络(GAN)
人工智能·深度学习·生成对抗网络