多语言模型融合何时有效?基于67款前沿模型的路由、投票与智能体混合共失效上限研究
论文信息
arXiv:2606.27288v1 cs.AI,发布时间2026-06-25
摘要
路由、级联推理、模型融合、智能体混合(MoA)等多LLM系统被广泛用于突破单模型精度上限。本文证明:所有输出仅复用成员模型答案的调度策略(路由、多数投票、级联),精度存在理论天花板 1−β1-\beta1−β,其中 β\betaβ 是全部模型在同一查询上同时出错的概率。
当前行业通用评估指标------模型间成对误差相关系数 ρ\rhoρ,无法表征 β\betaβ:即便边际误差、成对相关系数完全一致,多模型全域共错率 β\betaβ 仍可存在巨大差异。本文基于Clopper--Pearson置信区间给出 β\betaβ 有限样本下界,仅通过一组标注查询集,即可在训练路由前量化所有融合策略的理论精度提升上限。
实验覆盖21厂商共67款前沿模型(含GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro、Grok-4.3、DeepSeek V4、Qwen3.7-Max、Kimi K2.7等),核心实证结论:
- 采用四分相关(tetrachoric)校准的单因子高斯Copula会严重低估全域共错尾部风险;开放式数学任务下低估幅度约2.5倍(90%置信区间1.7~3.4,样本量k=17);完整67模型高斯Copula拟合得到预测共错率0.023,实测 β=0.052\beta=0.052β=0.052;竞赛代码任务 β=0.079\beta=0.079β=0.079,该低估规律复现。
- 同等精度前提下,低误差相关的异构集成优于自混合MoA(Self-MoA)。
- 同一套GPQA-Diamond科学试题,仅将题型从选择题改为开放式自由作答,全域共错尾部直接出现(β=0.127\beta=0.127β=0.127,5位LLM评委组一致性 κ=0.73∼0.92\kappa=0.73\sim0.92κ=0.73∼0.92),证明共错由任务作答形式而非学科内容决定。
- 在本文测试数据集与可校验任务中,若缺少强查询级路由特征,多模型融合几乎无法超越最优单模型;精度增益来源于模型出错场景互补,而非单纯扩充模型数量。
1 引言
1.1 行业现状
单模型时代逐步落幕,企业在线上同时部署数十厂商数百款大模型,基于成本、时延、可靠性、能力为业务负载分配模型,路由层承担算力预算管控与厂商风险隔离。行业核心问题从"哪款模型最强"转变为:如何在异构、误差相关、快速迭代的模型池内分配token与资金预算。
当前从业者仅依靠成对误差相关系数 ρ\rhoρ 做决策:ρ\rhoρ 越低代表模型误差多样性越强,融合收益越高。
1.2 本文核心结论
ρ\rhoρ 是错误的评估指标。约束多模型调度收益的核心变量是全域共错率 β\betaβ:任意路由、投票、级联策略精度上限恒为 1−β1-\beta1−β,而成对相关系数无法反映高阶全域共错尾部风险。该理论缺口并非纯理论问题:当前前沿模型在开放式难题上极易同步出错。基于Clopper--Pearson区间的 β\betaβ 下界工具,可仅用标注数据集提前测算融合策略理论最大收益。
1.3 已有工作承认(无创新)
- 等相关方差下限属于经典投资组合、集成学习理论;高斯Copula建模LLM误差参考Turkmen等人2026年工作;
- 预言者最优上包络、路由/级联最优性由Dekoninck等人2024年证明;
- 线性规划对偶、Clopper--Pearson区间、高斯Copula、单因子Probit均为标准数学工具。
本文不提出新型路由算法,仅将上述工具适配付费推理调度场景并完成大规模市场实测。
1.4 四大核心贡献
- 调度理论天花板与零成本验证工具(第5章,命题1)
- 任意选择策略精度不超过 1−β1-\beta1−β;预言者最大增益 = 最优单模型出错概率 − β\betaβ;
- 仅用标注查询集与Clopper--Pearson区间,即可生成所有融合策略可实现收益的前置验证证书,无需训练路由。
- 成对相关系数低估共错尾部的数学证明(命题2)
尾部依赖场景下,由 ρ\rhoρ 拟合的单因子模型会向下低估真实 β\betaβ;低估幅度随模型池规模发散,根源是存在高斯Copula无法表征的公共失效原子(common-mode atom),而非单纯尾部依赖。 - 67款模型大规模实测结论(第4、5章)
- 预言者路由存在理论增益,但可训练路由几乎无法捕获该收益;
- β\betaβ 与 ρ\rhoρ 的偏差随模型池扩大单调上升;
- 跨三大任务域观测到两种调度约束模式:天花板约束(开放式数学/代码)、可实现性约束(选择题科学),ρ\rhoρ 无法区分两种模式。
- 推理调度配套经济学框架(附录A)
- 预算约束路由等价带单一影子价格的定价分配问题;
- 成本感知的多样化上限;级联推理校准边界;
工具均为经典理论拓展,附市场迭代下模型池广度的观测期权价值(附录E)。
1.5 系统架构示意
查询 xxx 隐式任务类型 ttt,调度方案包含路由、级联、融合;推理预算影子价格 λB\lambda_BλB;模型池覆盖GPT-5.5(30/千输出token)至Llama-3.1-8b(0.03/千输出token)共67款、21厂商,模型误差相关、定价差异化、版本快速迭代。
精度上限统一为 1−β1-\beta1−β,行业通用指标 ρ\rhoρ 无法识别该上限;业务分为两种完全相反的约束模式,仅靠 ρ\rhoρ 无法区分。
2 相关工作
2.1 路由与级联推理
- 学习式路由:为每条查询分配单一模型;级联推理从廉价模型起步,置信度不足时升级强模型;
- Dekoninck等人统一两类框架并证明最优路由/级联策略;Jitkrittum等人推导双模型降级最优规则,证明未建模下游误差时,置信度降级策略存在次优缺陷;
- 现有工作将预言者精度作为经验上限、将级联阈值作为可调超参;本文新增预算约束下的成本停止规则、校准主导边界、隐式容量上限。
2.2 集成与模型融合
- 排序融合、分层聚合、采样投票、自混合MoA(Self-MoA);自混合单模型集成在同等算力下常优于异构融合,核心权衡为精度-多样性;
- 经典集成学习方差分解、多样性不保证精度提升的结论;
- 本文使用的精度上限源自Kuncheva预言融合器(正确当且仅当至少一个模型答对,即 1−β1-\beta1−β),早于LLM时代;本文创新点:
- 证明该上限约束所有输出为模型原生答案的策略(投票、自洽辩论、路由全部包含);
- 无标注场景下转化为有限样本验证证书。
2.3 误差相关与推理经济学
- Kim等人实测350+模型成对误差高度相关,相关性随模型精度、厂商同源性上升,但仅做定性分析,未定义全域共错率 β\betaβ,也未建立调度精度上限;
- Turkmen等人采用四分相关高斯Copula拟合二元误差,推导等相关集成误差下限;本文结论相反:高斯Copula会严重低估真实共错尾部,核心驱动是公共失效原子(高斯Copula零下尾依赖,无法刻画);
- Erol等人通过生产理论定义单位正确答案成本,作为本文核心评估指标。
2.4 金融与实物期权理论
均值-方差资产配置、成本感知分散化、信息价值、选择性预测、切换成本、实物期权波动率比较均为本文经济学框架基础,本文仅做场景适配,不宣称理论创新。
3 问题形式化
每条查询 xxx 对应隐式任务类型 t=T(x)∼Dt=T(x)\sim Dt=T(x)∼D,类型先验 p(t)=PrT=tp(t)=\PrT=tp(t)=PrT=t。
模型池 M={1,2,...,m}M=\{1,2,...,m\}M={1,2,...,m},模型 iii 在任务类型 ttt 下单查询期望效用 qi(t)∈0,1q_i(t)\in0,1qi(t)∈0,1,单查询定价 ci≥0c_i\ge0ci≥0;全局平均精度 qˉi=Etqi(t)\bar{q}_i=\mathbb{E}_t q_i(t)qˉi=Etqi(t)。
随机路由策略 π:T→Δ(M)\pi:T\to\Delta(M)π:T→Δ(M),策略总收益:
V(π)=Et∑iπ(i∣t)qi(t)V(\pi)=\mathbb{E}_t\sum_i \pi(i\mid t) q_i(t)V(π)=Eti∑π(i∣t)qi(t)
策略总推理成本:
K(π)=Et∑iπ(i∣t)ciK(\pi)=\mathbb{E}_t\sum_i \pi(i\mid t) c_iK(π)=Eti∑π(i∣t)ci
本文同时研究多模型融合(同时调用多模型再聚合)、级联推理(低置信度升级模型)。业务优化目标:单位成本正确答案数量,或预算约束下最大化精度。
经济框架说明(详见附录A)
调度本质是资产分配,配套完整经济学工具,不影响正文实证结果,核心三点:
- 固定推理预算下,路由等价带单一影子价格 λB\lambda_BλB 的定价分配(命题4);
- 成本感知融合存在分散化上限 k∗(ρ,c)k^*(\rho,c)k∗(ρ,c),随误差相关系数升高而收缩;
- 校准级联推理中,验证器AUC降至0.5时,级联等价随机混合,存在与价格无关的升级容量上限。
4 实验配置
4.1 实验分两阶段
-
基础支柱实验(15模型,9厂商)
前沿:Claude Opus 4.8、GPT-5.1、Gemini 3.1 Pro、Kimi K2.7
中端:Claude Sonnet 4.6、GPT-5-mini、Gemini 3.5 Flash、Qwen3-235B、Mistral-Large、MiniMax M2.7、DeepSeek V3.2
廉价:Claude Haiku 4.5、GPT-5-nano、Gemini 3.1 Flash-Lite、Llama-4-Maverick
完整快照、定价存储于实验注册表(附录C)。
基准数据集:GSM8K、MMLU、ARC-Challenge、MATH-500混合集;高难度集MMLU-Pro,单数据集100~200条查询。
-
市场规模实测(67模型,21厂商)
OpenRouter全量在线模型池,覆盖GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro、Grok-4.3、GLM-5.2、Qwen3.7-Max、DeepSeek V4、Kimi K2.7、MiniMax M3至轻量开源模型(Llama、Mistral、Gemma、Phi、GLM、Qwen等),仅对话微调版本,价格实时验证,完整名单见附录D。
新增高共错风险数据集:开放式竞赛数学(MATH-500、MATH-Hard Level5、AIME2024/2025)、研究生理科GPQA-Diamond(物理/化学/生物)。
4.2 打分规则
- 程序自动打分:精确匹配算术、选择题提取、boxed整数答案匹配;无LLM评委;
- 早期首字母提取器存在打分偏差,全部缓存输出重新打分,全文采用修正后指标。
4.3 成本计量
调用OpenRouter账户计费接口统计每轮消耗:
- 基础支柱实验总消耗≈47美元;
- 市场规模两模式实测≈111美元;
- 代码、开放式GPQA拓展实验≈110美元;
- 报告实验合计≈270美元;含废弃迭代、探索性实验总账户消耗≈560美元(近似值)。
4.4 对比基线
最便宜单模型、最优单模型(样本内选择,会低估预言者增益,实验结论保守)、随机混合、等预算自混合MoA、分区预言者、全局单查询预言者、置信度级联、多数投票、异构融合。
5 实验结果
5.1 基础支柱A:两种模式下预言增益均显著
表1 多域混合集/高难度MMLU-Pro关键指标
| 指标 | 多域混合饱和集 | MMLU-Pro高难度集 |
|---|---|---|
| 最优单模型精度 | 0.923(Opus 4.8) | 0.850(Sonnet 4.6) |
| 全局预言者精度 | 0.967 | 0.970 |
| 预言者增益(95%自助CI) | 0.044 | 0.120 |
| 平均成对误差相关 | 0.464 | 0.382 |
| 同厂商模型相关均值 | 0.528 | 0.402 |
| 跨厂商模型相关均值 | 0.459 | 0.380 |
核心观测:
- 两种数据集预言增益置信区间均不包含0,证明模型不存在全域最优,难题场景增益更大;
- 同厂商模型误差相关恒高于跨厂商,多域混合集差距更明显,印证Kim等人厂商同源误差相关结论;
- 可部署学习路由几乎无法捕获预言增益:TF-IDF+域逻辑回归路由仅捕获9%增益,CI跨0;梯度提升正确性预测器、多分类最优模型预测器、LLM路由(GPT-5-mini)均无法超越最优单模型;
- 所有路由策略远低于成本感知预言者最优前沿,可实现路由收益接近0------并非路由算法弱,而是查询缺少判断"哪款模型会答对"的有效特征。
5.2 尾部全域共错:可实现收益前置验证证书(命题1)
命题1 理论结论
- 精度天花板 :任意路由/投票/级联策略精度≤1−β1-\beta1−β,预言者策略达到该上限;相对最优单模型最大理论增益:Δceil=(1−β)−asb\Delta^{\mathrm{ceil}}=(1-\beta)-a_{\mathrm{sb}}Δceil=(1−β)−asb。
- 增益拆分 :预言增益 G=Pr最优单模型出错−βG=\Pr\\text{最优单模型出错}-\betaG=Pr最优单模型出错−β;增益仅来自"最优单模型答错、至少一个其他模型答对"样本,全域共错样本无法贡献任何增益。
- 零成本前置验证证书 :nnn 条独立查询中出现 KKK 次全域共错,Clopper--Pearson下界 βlo(K,n,δ)\beta_{\mathrm{lo}}(K,n,\delta)βlo(K,n,δ);置信度≥1−δ1-\delta1−δ 下,所有调度策略精度提升不超过 (1−βlo)−asb(1-\beta_{\mathrm{lo}})-a_{\mathrm{sb}}(1−βlo)−asb;若该值低于调度运维开销,多模型融合无商业价值。
实测尾部低估现象
行业通用成对相关系数 ρ\rhoρ 会系统性低估全域共错概率 β\betaβ;单因子高斯Copula预测 βsf\beta_{\mathrm{sf}}βsf 远低于实测值(表2),限制仅取单厂商模型池仍存在该偏差。
表2 15模型前沿池尾部共错统计(Clopper--Pearson 95%区间)
| 指标 | 多域混合集 | MMLU-Pro高难度集 |
|---|---|---|
| 实测全域共错率β | 0.033 0.019, 0.054 | 0.030 0.011, 0.064 |
| 朴素0-1指标皮尔逊成对相关均值 | 0.464 | 0.382 |
| 单因子Copula预测β | 0.0011 | 0.0050 |
| 朴素皮尔逊低估倍数区间 | 17~48倍 | 2~13倍 |
| 复刻真实β所需隐含尾部相关系数 | 0.88 | 0.64 |
| 可实现路由增益占理论上限比例 | 0.09(CI跨0) | - |
说明:朴素皮尔逊相关会极大放大低估倍数,属于校准错误;正确四分相关校准后低估倍数仅个位数(MATH-500约2.5倍)。全域共错样本极少,Clopper--Pearson区间宽度大,67模型大规模实验缩小区间不确定性。
5.3 大规模模型池:低估随模型数量单调放大
实验池扩展至67模型21厂商,核心数据集MATH-500(330条全覆盖查询,17次全域共错):
- 实测 β=0.052\beta=0.052β=0.052,四分相关均值 ρˉ=0.78\bar{\rho}=0.78ρˉ=0.78,单因子Copula预测 βsf=0.021\beta_{\mathrm{sf}}=0.021βsf=0.021,真实尾部厚2.5倍(90%自助CI 1.7~3.4);
- 拟合完整67×67四分相关正定矩阵、蒙特卡洛积分全高斯Copula,预测 βfull−Σ=0.023\beta_{\mathrm{full-}\Sigma}=0.023βfull−Σ=0.023,仍低估2.25倍;
- 交换式Clayton下尾依赖Copula校准后预测 β=0.026\beta=0.026β=0.026,低估1.96倍;证明偏差并非高斯Copula零下尾依赖导致;
- 机制:存在公共失效原子,仅靠任意成对相关统计无法刻画,该特征随模型池扩大单调增强;随机抽取k模型子集重采样,低估倍数从k=2时1.0单调上升至k=67中位数2.5。
同规律在MATH-Hard Level5复现:β=0.044\beta=0.044β=0.044,四分相关单因子模型低估8.3倍;匹配同等相关系数后低估3.3倍。
独立域验证:竞赛代码(附录F)
18模型、63道1900~3500分竞赛编程题,程序沙箱执行打分:
- β=0.079\beta=0.079β=0.079(5次全域共错,CP区间0.026,0.176);
- 朴素皮尔逊相关0.27,虚假低估17倍;四分相关校准低估3.1倍;完整Σ高斯Copula低估1.7倍;
- 90%自助CI 1.5,6.2,区间不包含1,统计学显著低估。
5.4 两种调度约束模式(由任务格式决定,与学科无关)
理论公式 G=Pr最优单模型出错−βG=\Pr\\text{最优单模型出错}-\betaG=Pr最优单模型出错−β 划分两类场景:
- 天花板约束模式(开放式任务) :β>0\beta>0β>0,全域共错上限锁死最大增益;数学、代码、开放式自由作答GPQA属于此类;
- 可实现性约束模式(选择题) :β≈0\beta\approx0β≈0,理论上限接近1,预言增益全部来自模型分歧,无全域同步失效;选择题GPQA属于此类。
表3 三大独立任务域模式对比
| 指标 | MATH-500数学 | code_contests代码 | GPQA-Diamond理科选择题 |
|---|---|---|---|
| 模型数量/查询数 | 67/330 | 18/63 | 52/130 |
| 最优单模型精度 | 0.836 | 0.825 | 0.846 |
| 全局预言者精度 | 0.948 | 0.921 | 1.000 |
| 预言增益 | 0.112 | 0.096 | 0.154 |
| 全域共错率β | 0.052 | 0.079 | ≈0 |
| 四分相关低估倍数 | 2.5倍 | 3.1倍 | 无 |
| 模式分类 | 天花板约束 | 天花板约束 | 可实现性约束 |
控制变量实验:固定内容仅修改题型(附录G)
同一79道GPQA-Diamond试题,仅移除选项改为自由作答,5位LLM评委组打分(κ=0.73∼0.92\kappa=0.73\sim0.92κ=0.73∼0.92):
- 选择题:β≈0\beta≈0β≈0,平均精度0.66,最优单模型0.91;
- 开放式作答:β=0.127\beta=0.127β=0.127(10次全域共错,CP0.062,0.220),平均精度0.51,最优单模型0.77;
结论:任务开放作答形式是全域共错的核心诱因,与学科内容无关。
5.5 支柱B:融合增益两大互补结论
-
无质量约束时,单纯多样性会损害精度
全部15模型三元组合共455组,未加权多数投票相对组内最优模型平均增益为负(难题集-0.10,混合集-0.02);不等精度模型混合会被弱模型拉低投票结果,印证Li等人2025自混合MoA结论。
-
同等精度模型池内,低相关异构融合优于自混合MoA
控制模型精度区间0.74~0.865,异构模型成对相关 ρ=0.42\rho=0.42ρ=0.42;自混合同模型MoA ρ=0.80\rho=0.80ρ=0.80;等信息量对比下异构集成稳定高出0.027精度(60次分区重采样全部为正);相关系数越高,分散化收益越低,匹配成本感知分散上限理论预测。
5.6 支柱C:级联推理经济学验证
廉价模型L(GPT-5-nano,aL=0.748a_L=0.748aL=0.748)、强模型H(Opus 4.8,aH=0.921a_H=0.921aH=0.921),置信度验证器AUC=0.899:
- 级联相对同等预算随机混合的精度优势,随验证器AUC下降单调收敛至0;AUC=0.5时级联等价随机采样;
- 理论容量上限 1−aL/aH=0.1881-a_L/a_H=0.1881−aL/aH=0.188;
- 5折留出验证:基于训练集调优降级阈值,级联仍稳定优于随机混合+0.114精度;
- 约束条件:强模型在降级样本上必须具备精度优势,否则级联无收益。
5.7 迭代 churn下模型池广度的期权价值(附录E,次要结论)
2024.3~2026.2模型迭代观测:前沿单位正确答案成本下降约14倍;多厂商模型池带来的期权价值高度依赖任务难度:高难度MMLU-Pro可提升0.33精度,简单GSM8K仅提升0.01;模型误差相关趋近1时,融合收益与广度期权价值同步收缩。
6 讨论
全文所有结果统一归为预算约束下模型分配问题,分为两个时间尺度:
-
单迭代周期内(静态分配)
价格、模型池固定,求解附录A预算分配线性规划,收益上限由 β\betaβ 决定;
- 路由收益:一阶选择效应,仅由模型间分歧离散度决定,与绝对能力无关;
- 融合收益:二阶方差分散效应,仅在模型精度匹配时显著;
- 级联收益:验证器AUC积分带来的决策增益;
三类收益均随模型误差相关上升持续缩小。
-
跨迭代周期(动态期权)
新前沿模型持续迭代,多厂商接入带来等待期权价值;模型迭代越快、能力离散度越高,广度期权价值越高。
2026前沿模型实测解读:
- 预言理论增益整体偏小,无约束投票融合普遍降低精度;
- 仅在模型精度匹配前提下,误差多样性可带来稳定提升;
- 调度收益核心抓手是失效模式差异化,而非单纯扩充模型数量;
- 成对相关系数无法区分天花板/可实现性两大业务模式,不能作为调度决策唯一依据。
7 局限性
- 打分依赖程序可校验任务,长文本开放式生成仅靠LLM评委存在主观偏差;饱和选择题基准会人为抬高 ρ\rhoρ;
- 静态定价假设与模型快速迭代存在冲突,经济学框架仅适用于单版本周期;
- 同等精度融合实验仅基于单一厂商模型区间,跨厂商复现、拟合分散化最优规模 k∗k^*k∗ 仍待后续工作;
- 训练路由仅在15模型混合集完成,67大规模池无查询日志,无法训练端到端路由;
- 级联验证器仅基于廉价模型置信度,未使用强弱模型联合置信度,未达到理论最优降级规则;
- 竞赛代码域全域共错样本仅5次,区间宽度大,未在67模型全池复现;开放式GPQA依赖LLM评委,无人工标注真值;
- 模型迭代期权价值仅为单路径观测数据,无控制变量对照。
8 结论
行业当前依靠成对误差相关系数判断多模型融合收益存在根本性缺陷:该指标无法表征约束融合收益的全域共错率 β\betaβ。
本文将多模型调度转化为带预算约束的资产分配问题,提供三大落地工具:
- 基于Clopper--Pearson区间的零成本前置验证证书,量化融合理论最大精度上限;
- 配套经济学框架:成本感知分散上限、级联推理校准边界;
- 模型迭代下厂商广度的期权价值量化方法。
实证层面划分两类业务模式:
- 天花板约束(开放式数学/代码/自由作答理科) :存在高频全域同步失效,ρ\rhoρ 严重低估尾部风险,理论收益上限被锁死;
- 可实现性约束(选择题):全域共错概率接近0,理论增益充足,但现有路由算法难以捕获分歧收益。
落地实践核心结论:
在可校验任务、无强查询路由特征的前提下,前沿模型同步失效现象普遍;提升融合收益的关键是挖掘模型失效场景差异化,而非单纯增加模型数量;成对相关系数无法判断业务处于哪一类约束模式,不能作为调度预算分配依据。开放式长文本生成场景下结论是否通用,仍待后续研究。
附录A 调度经济学框架(路由、分散化、级联)
A.1 路由作为带价格约束的分配问题
引理1 精度上包络与支配条件
任意路由策略精度不超过预言者上界 Vo=Etmaxiqi(t)V^o=\mathbb{E}_t\max_i q_i(t)Vo=Etmaxiqi(t);预言增益 G=Vo−maxiqˉi>0G=V^o-\max_i\bar{q}_i>0G=Vo−maxiqˉi>0 当且仅当不存在全场景最优单模型。
命题4 预算约束路由:影子价格与性价比规则
固定推理预算 BBB,最大化精度线性规划对偶形式:
V(B)=minλ≥0{λB+Etmaxiqi(t)−λBci}V(B)=\min_{\lambda\ge0}\Big\{\lambda B+\mathbb{E}_t\max_i\bigq_i(t)-\\lambda_B c_i\\big\Big\}V(B)=λ≥0min{λB+Etimaxqi(t)−λBci}
最优策略:每条查询分配至 argmaxiqi(t)−λBci\arg\max_iq_i(t)-\\lambda_B c_iargmaxiqi(t)−λBci;λB\lambda_BλB 为推理资金影子价格,代表每增加1美元预算可换取的精度提升。
V(B)V(B)V(B) 单调非减、凹分段线性;预算充足时 λB=0\lambda_B=0λB=0,等价无约束预言路由。
A.2 成本感知模型分散化上限
命题5 经典等相关方差下限
k个等相关模型等权融合误差方差:
V(k)=σ2(ρ+1−ρk)→ρσ2V(k)=\sigma^2\left(\rho+\frac{1-\rho}{k}\right)\to\rho\sigma^2V(k)=σ2(ρ+k1−ρ)→ρσ2
单因子Probit多数投票无限集成误差下限:Φ(−Φ−1(1−α)/ρ)\Phi\left(-\Phi^{-1}(1-\alpha)/\sqrt{\rho}\right)Φ(−Φ−1(1−α)/ρ )。
命题6 成本平衡最优集成规模
k∗(ρ,c)=12(−1+1+4λσ2(1−ρ)/c)k^{\ast}(\rho,c)=\tfrac{1}{2}\Big(-1+\sqrt{1+4\lambda\sigma^{2}(1-\rho)/c}\Big)k∗(ρ,c)=21(−1+1+4λσ2(1−ρ)/c )
∂k∗/∂ρ<0\partial k^*/\partial\rho<0∂k∗/∂ρ<0、∂k∗/∂c<0\partial k^*/\partial c<0∂k∗/∂c<0;误差相关越高、单模型成本越高,最优集成数量越少。
命题7 分散化敏感度λ校准
单因子Probit下,精度对融合方差的边际敏感度:
λ(V)=−∂P∂V=m2V3/2φ (mV),m=Φ−1(1−α)\lambda(V)=-\frac{\partial P}{\partial V}=\frac{m}{2V^{3/2}}\varphi\!\Big(\frac{m}{\sqrt{V}}\Big),\quad m=\Phi^{-1}(1-\alpha)λ(V)=−∂V∂P=2V3/2mφ(V m),m=Φ−1(1−α)
符号规则:单模型正确率>0.5时 λ>0\lambda>0λ>0,增加模型可降低方差提升精度;单模型正确率低于随机猜测时分散化失效。
A.3 级联推理校准经济学
廉价模型L、强模型H,置信度阈值 τ\tauτ,升级概率 β=Prs\<τ\beta=\Prs\<\\tauβ=Prs\<τ。
命题8 级联优势收敛规则
同等预算下,级联相对随机混合的精度优势:
Q(β)−Qmix(β)=βw(β)−(1−aL)+βaH(τ)−aHQ(\beta)-Q_{\mathrm{mix}}(\beta)=\beta\bigw(\\beta)-(1-a_L)\\big+\beta\biga_H(\\tau)-a_H\\bigQ(β)−Qmix(β)=βw(β)−(1−aL)+βaH(τ)−aH
验证器AUC=0.5时,级联等价随机混合;完美校准下,达到固定精度所需强模型调用比例上限 1−aL/aH1-a_L/a_H1−aL/aH。
推论1 级联优于纯强模型的必要条件
验证器AUC高于临界阈值,且降级样本上强模型精度显著高于廉价模型;若强模型在难样本上无优势,级联无收益。
附录B 全部数学命题证明
命题1证明、命题2证明、命题3证明、命题4证明、命题6证明、命题7证明、命题8证明
详见原文B附录,完整严格数学推导,包含Fréchet多元二元分布歧义、高斯Copula零下尾依赖、线性规划强对偶、Probit模型微分推导等。
附录C 可复现性完整资源
C.1 开源脚本清单(全部可运行)
beta_certificate.py:全域共错前置验证证书工具,仅输入全域共错次数、查询总量、最优单模型精度,输出Clopper--Pearson置信区间与理论增益上限,无需成对相关系数;realizability.py:全域共错率、四分相关、低估倍数主计算脚本;residual_decomp.py:完整协方差矩阵高斯Copula残差分解;bootstrap_ratio.py:低估倍数自助置信区间计算;cascade.py:级联推理AUC优势仿真;eqq_robustness.py:同等精度融合分区鲁棒性测试;rho_fusion_test.py:模型聚类Jackknife相关系数回归;matrix_marketE2/matrix_marketE3:67模型全量打分结果矩阵;judge_open.py:开放式GPQA五LLM评委打分流程;detruncate.py:长文本截断重查询处理脚本;copula_dichotomy.py:公共失效原子vs普通尾部依赖仿真对比。
C.2 实验成本明细CSV
cost_registry.csv:每轮实验、每模型调用精确计费记录,区分基础支柱、市场规模、代码、开放式GPQA四大模块总消耗。
C.3 数据与模型快照
- 全部模型2026-06-19固定版本快照、厂商定价注册表;
- 程序打分器完整代码、竞赛代码沙箱执行环境;
- 所有数据集原始查询、标准答案、测试用例;
- 完整输出缓存矩阵,可复现文中所有表格、图表数值。
附录D 67模型21厂商完整模型池清单
表格包含模型名称、厂商家族、精度梯队(前沿/中端/廉价)、输入百万token单价、输出百万token单价,覆盖OpenAI、Anthropic、Google、XAI、Moonshot、Qwen、DeepSeek、GLM、MiniMax、Mistral、Meta、Microsoft、NVIDIA、IBM等21个厂商,完整价格表见原文附录D。
附录E 模型迭代 churn下的广度期权价值(次要结论)
命题9 多厂商接入期权价值解析
新模型迭代泊松强度 ν\nuν,能力提升幅度正态分布 Γ=μ+ηZ\Gamma=\mu+\eta ZΓ=μ+ηZ,期权价值:
VR=vr⋅νr+ν⋅Eg(μ,η),Eg=μΦ(μ/η)+ηφ(μ/η)V_{R}=\tfrac{v}{r}\cdot\tfrac{\nu}{r+\nu}\cdot\mathrm{Eg}(\mu,\eta),\quad \mathrm{Eg}=\mu\Phi(\mu/\eta)+\eta\varphi(\mu/\eta)VR=rv⋅r+νν⋅Eg(μ,η),Eg=μΦ(μ/η)+ηφ(μ/η)
切换成本、自托管vs动态路由临界溢价阈值 δ∗=rK+vνr+νEg\delta^*=rK+v\tfrac{\nu}{r+\nu}\mathrm{Eg}δ∗=rK+vr+ννEg。
推论2 模型收敛效应
模型精度提升伴随误差相关趋近1,分散化收益、路由期权价值同步收缩;20242026实测前沿单位正确推理成本下降1415倍。
附录F 第三独立域:执行打分竞赛代码任务
- 数据集:deepmind/code_contests,Codeforces 1900~3500高分难题,筛选63道可通过Python标准参考代码验证题目;
- 沙箱规则:内存限制、3倍官方C++时间上限,公平适配Python慢速运行;内置私有+生成压力测试用例;
- 实验结果复现数学域全部共错特征,四分相关低估倍数CI1.5,6.2,统计学显著;
- 局限:仅18模型池,全域共错样本仅5条,无67模型全池代码查询日志,无法训练代码专用路由。
附录G 控制变量格式实验:开放式GPQA五LLM评委打分
- 处理流程:GPQA-Diamond选择题移除选项,生成纯自由作答查询;
- 评委规则:5款主流模型交叉打分,禁止自评,多数投票、平局判定错误;
- 一致性指标:评委间Cohen's κ=0.73∼0.92\kappa=0.73\sim0.92κ=0.73∼0.92,一致性良好;
- 核心对照:同一试题仅修改作答格式,全域共错从0跳升至0.127,证明开放生成是共错根源,与理科内容无关;
- 局限:79条完整覆盖查询,剩余样本因超长推理截断丢失,真实 β\betaβ 存在低估。