动机
当前大模型在复杂推理任务上表现出色,但计算成本和延迟让人望而却步;小模型虽然高效,但推理能力又明显不足
现有的协作方案(如级联路由)通常采用"全有或全无"的策略:路由器判断题目难度,简单的给小模型,难的整个交给大模型。但问题在于,很多"难题"其实小模型能做出 90% 的推理步骤,仅在个别关键节点卡住了。这种粗粒度的任务分配就像:学生只要有一步不会,就把整道题都交给老师------显然造成了巨大的计算浪费
对此作者提出 RelayLLM,一种通过 token 级协作解码实现高效推理的框架。它让小模型在生成过程中主动识别"需要帮助的关键时刻",通过特殊指令仅在这些位置调用大模型,实现真正的"接力"生成
论文标题
RelayLLM: Efficient Inference through Collaborative Decoding
论文地址
https://arxiv.org/pdf/2601.05167
作者背景
华盛顿大学圣路易斯分校、马里兰大学、弗吉尼亚大学
代码地址
https://github.com/Chengsong-Huang/RelayLLM
问题分析
粗粒度路由的计算浪费
传统路由方法的工作流程是:先用一个路由模块判断查询难度,然后决定是交给小模型还是大模型。一旦判定为"困难",整个生成任务就会完全卸载到大模型
这种策略存在明显的低效:小模型其实具备处理大部分推理步骤的能力,可能只在某些关键位置(比如复杂的逻辑跳转、知识盲区)才需要专家干预。把整个任务交给大模型,就像因为一道题的最后一步不会,就让老师从头到尾全部重做一遍
关键推理步骤在哪里?
另一个重要问题是:小模型如何知道自己在哪里需要帮助?这不是简单的"难度判断" ------ 同一个问题的不同解题步骤,难度分布是不均匀的:
- 大部分步骤是常规推理,小模型完全能够胜任
- 少数关键步骤(比如巧妙的数学变换、跨领域知识调用)才是真正的瓶颈
- 这些关键步骤的位置高度依赖上下文,无法提前标注
因此,我们需要一种机制,让小模型在生成过程中"实时自我感知"------知道自己当前能力够不够,并在必要时主动请求帮助
RelayLLM 的设计方案
RelayLLM 的核心创新在于:将小模型同时作为推理器和控制器,让它在生成过程中通过特殊命令主动调用大模型,实现 token 级别的协作解码
协作推理机制
整个流程分为三个阶段:
1. 小模型主导生成
默认情况下,小模型 M_S 正常进行自回归生成。但它被赋予了一项特殊能力:可以生成一个命令 token:
<call>n</call>
其中 n 表示需要大模型生成多少个 token(比如 50 表示请求 50 个 token)
2. 大模型干预
当检测到这个命令时,小模型的生成会暂停。系统会将当前上下文(不包含命令 token 本身,以保持与大模型标准输入分布的兼容性)转发给大模型 M_L,后者接管生成接下来的 n 个 token
3. 控制权回归小模型
大模型完成指定数量的 token 生成后,控制权返回小模型。关键的是,小模型保留了完整的历史记录(包括自己生成的命令 token),这使得它能够维持对自己主动委派决策的记忆。随后小模型继续生成,消化专家提供的指导来完成剩余推理
这种设计的巧妙之处在于:
- 动态性
不需要预先判断整个问题难度,而是在生成过程中实时决策 - 精准性
可以精确控制在哪个 token 位置调用,以及调用多长时间 - 可学习性
何时调用、调用多久都是可以通过训练优化的策略
两阶段训练框架
为了让小模型学会"恰当的时机恰当地求助",作者设计了一套两阶段训练方法:
阶段 1:监督预热(冷启动)
小模型最初并不知道如何生成 n 命令。直接用强化学习训练,模型可能完全不会输出这个模式。因此需要监督预热来建立基础能力
数据构造流程:
- 避免分布偏移
直接从原始小模型采样生成基础序列(而非使用外部语料),确保训练数据与模型自身分布一致 - 随机插入命令
在生成序列的随机位置插入 n,让模型学会在任意时刻触发求助 - 多尺度长度采样
随机采样 n = d × 10^k(d ∈ {1,...,9}, k ∈ {0,...,3}),模拟不同程度的依赖
通过标准的交叉熵损失在这个合成数据集上微调,小模型就获得了生成有效命令的能力
阶段 2:基于 GRPO 的策略优化
有了生成命令的能力后,关键是教会模型"何时该求助、何时该独立"。这是一个明确的强化学习问题,作者采用组相对策略优化(GRPO)来训练
训练流程:
- 对每个查询,从旧策略采样一组输出(包含调用与不调用大模型的情况)
- 用奖励函数评估每个输出,计算相对于组平均值的优势
- 通过策略梯度更新模型参数,让模型倾向于生成高奖励的行为模式
奖励设计:
-
简单奖励
r_simple(y) = 𝟙(答案正确) - ρ(y)
其中 ρ(y) 是调用比率(大模型生成的 token 数 / 总 token 数)。这个奖励鼓励准确率,同时惩罚过度调用
- 难度感知奖励
简单奖励把所有问题一视同仁,但实际上不同问题需要不同的策略。作者根据采样组的集体表现,将查询分为三种情境并设计不同的奖励:

情境 1:学生可解(鼓励独立性)
如果采样组中至少有一个样本不调用大模型就答对了,说明小模型完全有能力独立解决。此时:
- 独立成功:r = 1.5(增强奖励)
- 依赖成功(ρ > 0):r = r_simple(标准奖励)
- 答错:r = 0
这样设计是为了明确告诉模型:"你本来可以自己做对的,不要总想着偷懒找老师"
情境 2:教师依赖型(惩罚固执)
如果正确答案只出现在调用了大模型的样本中,说明这个问题超出了小模型的能力边界。此时:
- 盲目独立(ρ = 0):r = -1.0(惩罚固执)
- 有效求助:r = r_simple(标准奖励)
这告诉模型:"明明不会还硬撑着,该求助时就要求助"
情境 3:教师不可解(激励探索)
如果所有样本都没答对(包括调用大模型的),说明问题极其困难或大模型也帮不上忙。此时:
- 尝试求助:r = ρ(y)(小的探索奖励)
- 其他情况:r = 0
这鼓励模型在极度不确定时仍保持寻求帮助的倾向,避免完全放弃探索
这种分段式奖励设计精妙地平衡了三个目标:
- 效率
在能力范围内尽量独立完成 - 准确
在能力边界外积极求助 - 探索
在极端不确定情况下保持求助倾向
数据过滤
还有一个重要细节:如果大模型对某个查询的成功率很低(比如只有 20%),那在训练中调用它不会带来多少正向信号,反而浪费计算。因此作者在训练前对数据做预处理:为每个查询采样 10 个响应,只保留大模型通过率 ≥ 50% 的样本
实验结果
作者选用 Qwen3 系列模型进行实验:Qwen3-0.6B 和 Qwen3-1.7B 作为小模型,Qwen3-8B 作为大模型(教师)。在六个数学推理基准上进行评估:Minerva、MATH-500、GSM8K、Olympiad-Bench、AIME-2024、AIME-2025

几个关键发现:
1. 显著的性能提升,极低的计算开销
以 Qwen3-1.7B(难度感知奖励)为例:
- 平均准确率:从基础模型的 42.50% 提升到 49.52%
- 平均调用比率:仅 1.07%(只有 1% 的 token 由大模型生成)
- 在 Minerva 这样的困难基准上,0.6B 模型从 15.81% 提升到 23.53%(相对提升 48.8%),调用比率仅 0.77%
这意味着:RelayLLM 弥合了小模型与大模型之间约 60% 的性能差距,而计算开销几乎可以忽略不计
2. 优于基线方法
- 相比 GRPO 基准(标准强化学习训练),RelayLLM 全面领先
- 相比 CITER(需要额外 MLP 控制器的 token 级路由方法),RelayLLM 性能更好且开销更低
- CITER 需要每个 token 都用外部 MLP 估算得分,带来显著延迟
- RelayLLM 仅用少量额外 token(命令)就实现了更高效的控制
3. 难度感知奖励 vs 简单奖励
难度感知奖励在性能上略优于简单奖励(Qwen3-1.7B:49.52% vs 49.30%),但调用比率稍高(1.07% vs 0.43%)。这符合预期:难度感知机制更鼓励模型在复杂场景中求助,从而带来更高的准确率,但相应地增加了一些调用开销
与路由方法的对比
论文中的一个关键对比是:RelayLLM 相比"资源相当的随机路由器"(调用相似比例的大模型 token)实现了 6.9% 的准确率提升,或者说相比性能相当的路由器,token 开销降低了 98.2%

这说明什么?传统路由方法要么在整个问题上做粗粒度分配(浪费计算),要么需要额外的控制模块(增加延迟)。而 RelayLLM 通过让小模型自身学会"在关键推理步骤精准求助",在极低开销下实现了远超路由方法的效率
泛化能力
尽管 RelayLLM 仅在数学领域的 DAPO 数据集上训练,但在未见过的通用推理领域(Big-Bench Hard、MMLU-Pro、SuperGPQA)上依然显著优于基线:

这表明模型学到的不是特定领域的模式,而是一种泛化的求助行为------即使面对不熟悉的输入,也能成功识别知识盲区并调用大模型
消融实验
作者进行了细致的消融研究,验证了设计中每个组件的必要性:

内在推理能力
一个有趣的问题是:RelayLLM 是真的提升了小模型的推理能力,还是仅仅学会了任务卸载?
作者在"无教师"情景下评估了模型(在推理时禁止生成 token),结果显示:

在简单数据集上,即使没有大模型帮助,RelayLLM(Simple)仍达到 61.12%,超过 GRPO 基准。这说明小模型在协作训练过程中成功内化了部分专家推理能力
而在困难数据集上,移除大模型导致性能显著下降,证实在复杂任务中模型仍严重依赖专家干预------这也是符合预期的
动态长度调用
作者还验证了动态预测调用长度 n 是否优于固定长度。他们重新训练了多个模型,每个模型在训练和推理时都硬编码固定的调用长度 k ∈ {20, 100, 500}:

RelayLLM 在保持相似准确率的同时,调用比率远低于 Fixed-100(1.07% vs 2.87%)。尽管 Fixed-500 准确率最高,但代价是 5 倍以上的计算开销。这表明:固定长度模型即使面对简单查询也会强制消耗计算预算,而 RelayLLM 能有效学习"仅需足够"的策略,最小化浪费
跨教师模型评估
作者还测试了推理时使用不同教师模型的效果。结果显示:
- 与训练用大模型保持一致时性能最佳(Qwen3-8B)
- 用更大的模型(如 14B)替代反而性能略降,说明分布偏移的影响超过了更强推理能力的优势
- 即使用比自身更弱的教师(0.6B 或 1.7B),性能也优于"无教师"基准,表明模型已适应外部辅助的存在
这个发现很有意思:说明 RelayLLM 学到的不仅是"调用一个更强的模型",而是一种更本质的"在特定上下文下接收并利用外部指导"的能力