自动化程序验证中的智能体证明能力

本文档综合了《Agentic Proving for Program Verification》https://arxiv.org/html/2605.23772v1的研究成果，旨在构建一个系统化的知识库，系统性地分析当前最先进的自动化定理证明（agentic systems）如何应用于结构极具挑战性的程序验证领域。核心在于分析先进的智能体范式（如利用编译器反馈）的有效性、局限性，以及对现有验证基准的冲击。

最佳范式: 证据确凿地证明，目前最有效的程序验证方法是紧密结合编译器的智能体范式（Compiler-in-the-Loop agentic paradigms）。
性能提升指标: 使用 Claude Opus 4.6 和定制工具集，在 Clever 基准测试的完整流程中，系统实现了 98.1% 的端到端成功率。
系统局限性: 结果同时也揭示了现有程序验证基准与先进AI能力之间存在的日益扩大的能力不匹配（Mismatch）。

阶段 (Stage)	指标 (Metric)	成功率 (Success Rate)	关键说明 (Details)
1. 规范认证 (Specification Certification)	可验证规范数 (Arguably Valid Specs)	98.8%	生成的规范具有高度的语法和语义有效性。
2. 实现认证 (Implementation Certification)	成功实现率 (Successful Implementations)	87.5%	对比标准真值规范，成功认证过实现的比例。
3. 端到端流程 (End-to-End Pipeline)	完整成功率 (Full Success Rate)	98.1%	在所有前提自洽的问题上，整个流程的综合成功率。

智能体: Claude Opus 4.6 (通过 Claude Agent SDK 调用)。
工具集: Agent 被注入了专业工具集，使其具备与编程语言底层环境交互的能力：
- lean-lsp-mcp: 用于与 Lean LSP 接口，查找 Mathlib 和项目上下文中的相关引理。
- lean4-skills: 一个包含 Lean 特定指令和命令的软件包（如 /lean4:autoprove），增强了指令的可控性。
工作流: 智能体在临时 Lean 项目环境中运行，通过工具调用和迭代精炼的方式逐步推理。

来源: 基于 HumanEval 策展的 161 个问题数据集。
目标: 对编程语言 Lean 4 进行端到端的自动代码生成和验证。
问题结构（流程图）: 每个问题需包含以下多个相互关联的证明环节：
1. 自然语言规格（NL specification）。
2. 形式规范（generated_spec）。
3. 人工真值规范（problem_spec）。
4. 同构定理（Isomorphism theorem）证明。
5. 实现代码（Implementation）。
6. 正确性定理（Correctness theorem/Proof）。

这是最具有价值的知识部分，提供了故障排查的完整框架。模型将错误归类为两个维度：

文章分析了 161 个案例，发现有 80/161 的真值规范本身存在缺陷。这对于任何使用AI进行验证的系统都是一个关键的外部限制。

🔴 Lean 编码陷阱 (48 问题):
- 逻辑联结词误用: 混用 (P ∧ Q) 和 (P → Q) 等。
- 优先级错误: 遗漏了逻辑运算符的括号，导致计算顺序错误。
- 量词域错误: 量词的范围设置错误。
🟡 语义错误 (34 问题):
- 语义偏差: 根本性公式或操作类型错误。
- 边界条件遗漏: 未考虑 n=0n=0n=0 或空列表等特殊输入情况。

虽然生成规范的成功率高，但失败时常发生在语义层面，这意味着智能体已经完成了语法检查，但其语义推理未能完全匹配题目的真实意图。

pre-processing: 在将待验证问题提交给智能体之前，必须运行一个静态分析模块，专门用于检查底层语言（如Lean 4）中的逻辑和语法陷阱。
Agent Orchestration: 智能体不应直接尝试，而应在一个**"自我质疑-多次验证"**的循环中进行：Guess -> Validate (Tool) -> Fail Analysis -> Refine Prompt -> Guess'，不断迭代改进。
Benchmark Curating: 建议建立一个**"Benchmark Grounding"**模块，专门负责比对和修正历史数据集中的语义和语法缺陷，以提高模型的学习上限。