局部相合，全局不一致：多组件大型语言模型智能体中组合不一致性的界定

论文编号 ：arXiv:2605.30335v1

主题：多组件 LLM 智能体（Multi-Component Agents）中的概率相干性、组合不一致性与几何修复。

核心发现：即使每个组件内部局部相干（Locally Coherent），组合后的系统也可能违反基本概率公理（如概率和 >1），导致"荷兰赌"（Dutch-book）暴露。

🔑 核心论点 (Core Thesis)

多组件智能体系统从各个专家子代理（Specialist Subagents）中组装概率声明。即使每个组件都是局部校准且内部相干的，组合后的系统仍可能违反概率公理（例如，概率之和大于 1），从而在组件之间产生严格的 Dutch-book 暴露（Dutch-book exposure）。

本文提出了：

组合残差（Compositional Residual, ε⋆\varepsilon^\starε⋆）：用于量化组合声明与联合相干多面体（Joint Coherent Polytope）之间的距离。
确定性几何修复（Deterministic Geometric Repair）：一种运行时证书，通过几何投影降低后续后悔值（Regret）。

📐 理论框架与机制

1. 组合残差 (ε⋆\varepsilon^\starε⋆)

定义：组合引语（composed quote）到联合相干多面体 M⋆\mathcal{M}^\starM⋆ 的 L2L_2L2 距离。
可计算性：该残差可从系统输出和跨组件约束（Cross-component constraints）中运行时计算得出。
暴露约束（Exposure Bound） ：通过资产定价基本定理（FTAP），将 Dutch-book 暴露量绑定为：
Exposure⋆≤m⋆⋅ε⋆ \text{Exposure}^\star \leq \sqrt{m^\star} \cdot \varepsilon^\star Exposure⋆≤m⋆ ⋅ε⋆

2. 产品结构二象性 (Product-Structure Dichotomy)

局部相干性与全局相干性 ：局部相干性仅在联合多面因子化为局部多面体的笛卡尔积（M⋆=M⊠\mathcal{M}^\star = \mathcal{M}^\boxtimesM⋆=M⊠）时，才能保证全局相干性。
结论：在其他情况下，局部相干的预测组合起来可能是全局不相干的（即 ε⋆>0\varepsilon^\star > 0ε⋆>0）。

3. 幅度预测 (Magnitude Prediction)

Rayleigh-商形式 ：使用专家小组协方差（Specialist Panel Covariance）计算预测残差幅度，无需额外调用 LLM。
Eσ $(ε⋆)2$ =κR⋅aR⊤DaR∥aR∥22 \mathbb{E}_\sigma $(\\varepsilon\^\\star)\^2$ = \kappa_R \cdot \frac{a_R^\top D a_R}{\|a_R\|_2^2} Eσ $(ε⋆)2$ =κR⋅∥aR∥22aR⊤DaR
实证表现 ：预测残差与观察到的残差误差控制在 7% 以内（适用于否定、划分和析取）。

📊 实证发现 (Empirical Findings)

指标 / 发现	结果
不相干性普遍性	ε⋆>0\varepsilon^\star > 0ε⋆>0 出现在 33% (合取) 到 94% (划分) 的超图（cliques）上。
预测精度	Rayleigh-商形式对否定、划分和析取的预测误差在 7% 以内。
Brier 得分改进	层次化联合校准（JCD）显著降低组合 Brier 得分；在比例分配规则下，产生 +0.115 nats/bet 的增益。
LLM 侧缓解效果	检索接地（Retrieval grounding）、分区感知提示（Partition-aware prompting）和聚合器 LLM 大部分无效或产生回归。几何修复（Geometric repair）表现严格优于它们。
前沿模型表现	前沿模型虽降低了残差幅度 (0.118 → 0.072)，但未能消除不相干模式（97.8% 仍不相干）。
后悔值分层 (Regret Stratification)	实际后悔值随着 ε⋆\varepsilon^\starε⋆ 单调上升；最高四分位数 (ε⋆>0.154\varepsilon^\star > 0.154ε⋆>0.154) 贡献了 0.221 nats/bet 的后悔值。

LLM 侧缓解性能对比

方法	平均 ε⋆\varepsilon^\starε⋆	回归率 (% Regressing)	成本 (Cost)
朴素 (Naive)	0.214	---	0
检索接地 (Retrieval)	0.283	67%	1次搜索
分区提示 (Partition)	0.066	17%	0
LLM 聚合器 (Aggregator)	0.028	7%	1次 LLM 调用
层次化联合校准 (Hierarchical JCD)	≤10−16\leq 10^{-16}≤10−16	0%	1次 QP 求解 (约 1ms)

🚀 部署指南与实践建议

运行时模式

监测模式 (Monitor) ：记录 ε⋆\varepsilon^\starε⋆ 并将大的残差暴露给操作者。
修复模式 (Repair)：在用于下游任务前，用层次化投影替换朴素引语。
拒绝或升级模式 (Abstain-or-Escalate) ：当 ε⋆>τ\varepsilon^\star > \tauε⋆>τ 时拒绝执行动作。

阈值设定

模式	阈值 (τ\tauτ)	捕捉率 (Harm Capture)	虚警率 (False Alarm Rate)
高召回率 (High-Recall)	≈0.15\approx 0.15≈0.15	91%	3.1%
均衡型 (Balanced)	≈0.18\approx 0.18≈0.18	73.5%	2.3%
高精度 (High-Precision)	≈0.22\approx 0.22≈0.22	50.7%	1.5%

关键部署洞察

几何修复成本极低：修复成本仅为每个分区一次二次规划（QP）求解（约 1ms），消除了不相干性且无需额外调用 LLM。
提示工程局限 ：提示工程有助于降低残差，但在 ε⋆≈0.08\varepsilon^\star \approx 0.08ε⋆≈0.08 时达到瓶颈，除非与使用工具的规划器结合。
结构属性 ：残差是跨组件耦合的结构性属性，而非有限样本波动（已通过 KKK-sweep 和贪心解码控制验证）。

⚠️ 局限性与未来工作

耦合集依赖 (Coupling Set Dependency) ：理论假设显式指定的耦合集 C\mathcal{C}C（例如类型模式、显式逻辑关系）。在自由形式的思维链（Chain-of-thought）中恢复 C\mathcal{C}C 仍需未来研究。
预测保守性：Rayleigh-商预测在等式约束下是精确的，但在不等式约束下是保守的。

📝 总结

本文证明了在多组件智能体系统中，即使局部校准，全局不相干性也是必然的。通过引入组合残差 ε⋆\varepsilon^\starε⋆ 和几何修复，可以在不增加 LLM 调用的情况下，有效消除 Dutch-book 暴露，并为智能体系统的可靠性提供了运行时证书。