多模型协作定律:大型语言模型模型集成的缩放极限

近年来,大语言模型(LLMs)的进展主要受单模型扩展定律的推动,该定律预测随着模型参数量和数据量的增长,性能会相应提升。然而,任何单一LLM的能力都存在内在的局限。一种解决方案源自多个LLM之间复杂的交互作用,使得它们的集体性能能够超越其中任何一个单独模型。尽管模型路由、事后集成等多模型集成技术快速涌现,但目前仍缺乏一个关于多模型协作性能扩展的统一理论框架。

在本研究中,我们提出了多模型协作定律,这是一种能够基于集成模型的总参数量预算来预测其性能极限的扩展定律。为了量化多模型协作的内在理论上限,我们采用了一种与方法无关的表述形式,并假设存在一个理想化的集成预言机:其中每个样本的总交叉熵损失由模型池中任一模型的最小损失决定。实验结果表明,多模型系统在总参数量上遵循幂律扩展规律,与单模型扩展相比,呈现出更显著的性能提升趋势和更低的理论损失下限。

此外,由异构模型家族构成的集成系统,比单一模型家族内部形成的集成,实现了更好的性能扩展。这表明模型多样性是协作增益的主要驱动力。这些发现意味着,模型协作是拓展大语言模型智能前沿的一个关键方向。

我们提出多模型协作定律,这是一种定义由多个预训练大语言模型组成的系统其理论性能极限的扩展规律。通过采用基于预言机、与方法无关的表述形式,我们剥离出多模型协作的内在行为模式,并为其与经典单模型扩展定律提供了原则性的比较依据。

我们在多种开源模型上进行的实证研究表明,多模型系统相对于其聚合参数量预算遵循稳定的幂律扩展规律。与单模型扩展相比,多模型协作能实现更优的扩展效率;并且在异构模型池中,其渐近损失下限显著更低。这些结果表明,将参数分配于多个模型------尤其是那些具有不同归纳偏好的模型------可能比在单一架构内进行整体扩展更为有效。

除实证结果外,本研究将多模型系统重新定位为受规律性、可预测的扩展行为支配的对象,而非临时的工程解决方案。所提出的定律将模型多样性确立为一个根本性的扩展维度,与参数量、数据量和计算量并列。从这一视角看,单模型扩展所感知到的极限似乎取决于架构谱系,而非绝对边界。

虽然多模型协作定律定义的是理论上限而非可实现的系统,但此类界限对于厘清理论上的可能性至关重要。我们希望这项工作能激发对多样性感知的扩展、原则性集成机制以及机器学习中更广泛的集体智能理论的进一步研究。

相关推荐
NAGNIP10 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab11 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab11 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP15 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年15 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼15 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS16 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区17 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈17 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang17 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx