
📖标题:FormalJudge: A Neuro-Symbolic Paradigm for Agentic Oversight
🌐来源:arXiv, 2602.11136v2
🌟摘要
随着基于LLM的代理越来越多地在具有现实后果的高风险领域中运作,确保其行为安全变得至关重要。占主导地位的监督范式LLM-as-Juder面临着一个基本难题:概率系统如何在不继承其故障模式的情况下可靠地监督其他概率系统?我们认为形式验证提供了摆脱这一困境的原则性方法,但它的采用受到了一个关键瓶颈的阻碍:从自然语言需求到形式规范的转换。
本文通过提出FORMALJUDGE来弥合这一差距,FORMALJUDGE是一种采用双向思维形式架构的神经符号框架:LLM作为规范编译器,自上而下将高级人类意图分解为原子的、可验证的约束,然后自下而上使用Dafny规范和Z3满足性模理论求解来证明合规性,这产生了数学保证而不是概率分数。在7个代理模型上的实验表明,FORMALJUDGE比LLM-as--JUDGE基线平均提高了16.6%,实现了弱到强的泛化,其中7B法官检测来自72B代理的欺骗的准确率超过90%,并通过迭代细化提供了近乎线性的安全性改进。
🛎️文章简介
🔸研究问题:如何解决LLM代理监督中"用不可靠系统监督不可靠系统"的根本性困境?
🔸主要贡献:论文提出FORMALJUDGE------首个将LLM作为规格编译器、结合Dafny与Z3进行数学可证明监督的神经符号框架,实现从概率打分到确定性验证的范式跃迁。
📝重点思路
🔸构建双向"形式化思维"(Formal-of-Thought)架构:顶层由LLM将自然语言意图分解为原子化、可验证的约束;底层交由Dafny+Z3进行符号化逻辑合成与SMT求解,生成数学证明而非主观判断。
🔸实行关注分离设计:LLM仅负责原子级语义提取(如"是否调用click_link?""链接域名是否未知?"),所有逻辑组合、条件推演和真值判定均由确定性求解器完成。
🔸引入结构化轨迹接地机制:通过上下文函数投影相关子轨迹,对每类原子事实(如工具错误、内容匹配、披露行为)实施最小化上下文依赖的独立判断,避免全局推理偏差。
🔸支持迭代式形式反馈:将Dafny规格、具体违规项及形式化解释作为结构化信号回传代理,驱动其在多轮中定向修正行为,实现安全能力的近线性提升。
🔎分析总结
🔸FORMALJUDGE在三大基准(Agent-SafetyBench、VitaBench、Deceivers)上平均超越LLM-as-a-Judge基线16.6%,且性能不随代理规模增大而衰减,验证其真正可扩展性。
🔸实现强弱泛化:7B裁判模型对72B代理的欺骗检测准确率超90%,显著优于所有LLM基线(后者随代理变强而急剧下降)。
🔸形式反馈驱动高效自修正:Qwen-7B代理经三轮Dafny引导后安全准确率从30.8%升至49.4%,Claude-4.5-Opus达99.8%,而自然语言或Python反馈均无法达到同等精度。
🔸鲁棒性源于接地事实:在L1--L4级攻击复杂度下检测率稳定,不受欺骗表象(如流畅伪造文本)干扰;而LLM基线在L1/L2等隐蔽攻击下检出率常跌破25%。
💡个人观点
论文精准定位并破解了形式化方法落地的关键瓶颈------不是放弃自然语言接口,而是让LLM专注"翻译",把最易错的复合推理彻底剥离给形式引擎。
🧩附录
