导语
- 论文标题:One-shot Entropy Minimization
- 论文链接:arxiv.org/abs/2505.20...
1 引言
大语言模型(LLMs)的推理能力主要依赖于如监督微调(SFT)和强化学习(RL)等后训练策略。然而,强化学习往往需要大量标注数据和精心设计的奖励信号,训练成本高昂。本文提出了一种全新的后训练范式------One-shot Entropy Minimization(EM),只需一条未标注数据和 10 次优化步骤,就能实现与强化学习相媲美甚至超越的推理性能。
2 方法
熵最小化(Entropy Minimization,EM)
EM 的核心思想是:让模型对自己生成的 token 更有"信心"。具体实现上,本文以 token-level 熵作为优化目标,具体公式为:
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> H t = − ∑ v ∈ V p θ ( v ∣ y < t , x ) log p θ ( v ∣ y < t , x ) H_t = -\sum_{v \in V} p_\theta(v | y_{<t}, x) \log p_\theta(v | y_{<t}, x) </math>Ht=−v∈V∑pθ(v∣y<t,x)logpθ(v∣y<t,x)
其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> V V </math>V 为词表, <math xmlns="http://www.w3.org/1998/Math/MathML"> x x </math>x 为输入提示, <math xmlns="http://www.w3.org/1998/Math/MathML"> y y </math>y 为模型生成的响应, <math xmlns="http://www.w3.org/1998/Math/MathML"> θ \theta </math>θ 为模型参数。最终的 EM 损失为生成序列中所有 token 熵的平均值。
这一目标无需标签,且是可导的闭式表达,训练过程可端到端进行,不依赖奖励建模或价值估计。
行为方差驱动的样本选择
不同 prompt 对模型产生的优化信号差异极大。为挑选最能触发熵梯度的提示,本文提出了基于 pass@k 精度方差的选样策略。具体方法为:
- 对每条未标注提示,生成 k 个响应,统计其是否正确;
- 计算成功率方差 <math xmlns="http://www.w3.org/1998/Math/MathML"> V a r p a s s @ k ( x ) Var_{pass@k(x)} </math>Varpass@k(x);
- 选择方差最大的 prompt 作为训练对象。
这条 prompt 会在后续 10 步训练中保持固定。本文选择的一个样例展示如下:

3 实验
实验设置与结果
在 Qwen2.5-Math-7B 等基础模型上,本文仅使用一条 prompt,设置学习率为 <math xmlns="http://www.w3.org/1998/Math/MathML"> 2 × 1 0 − 5 2\times10^{-5} </math>2×10−5,温度为 0.5,训练步数为 10,无需标签与奖励,即可获得大幅性能提升,实验结果如下表所示:

可以看到在MATH500、Minerva Math、Olympiad Bench、AMC23等数据集上普遍提升20分以上,表现优于多种强化学习方法。
实验分析
Logits 分布偏移效应
在大语言模型中,logits 是指模型在每一步生成 token 时,尚未经过 softmax 的原始输出分数。logits 的分布反映了模型在候选词上的置信程度。本文发现,在 EM 训练过程中,logits 分布整体向右偏移,即高分 token 更集中、低分 token 被进一步压低,从而提升了整个分布的偏斜度(Skewness 上升)。这种右偏表示模型对少数候选 token 更加自信,有利于生成时优先选择正确推理路径,提升准确率与稳定性。
相对地,强化学习训练会引导模型重新排序 token 的偏好,压制那些高分但偏离标注的 token,导致 logits 分布向左偏移,从而增加生成的不确定性并影响效果。EM 所带来的 logits 右偏效应,实质上是一种分布塑形行为,对提升语言模型的推理质量具有重要作用。

EM 的解耦性与高效性
实验显示 EM 损失与推理性能并不严格耦合------损失继续下降时,性能可能反而下降。这表明 EM 更像是一种"分布塑形工具"而非传统学习策略,其主要效用在训练初期即可实现,训练收敛极快。

推理温度的非对称性
与 RL 模型不同,EM 模型在推理阶段更适合使用低温度或贪婪解码。推理温度越高,性能反而越差。这与 EM 提升高置信 token 的机制相一致。

模型适配性与可移植性
本文在多个模型(Qwen2.5、LLaMA、RL-trained 模型)上测试 One-shot EM,均观察到显著提升。尤其在推理能力较强的模型上,EM 效果更为突出。而对于已经过 RL 微调的模型,EM 可能带来性能下降,需谨慎应用。

One-shot vs Multi-shot
实验显示,1-shot EM 优于 multi-shot,不仅收敛更快,而且损失更平稳。这归因于单例训练减少了样本偏差和输出波动,提升了训练稳定性和泛化能力。

4 总结
One-shot Entropy Minimization 提供了一种极简、高效、无监督的大语言模型后训练方案。无需标签、无需奖励,仅靠一条 prompt 和 10 步训练,即可实现大幅推理性能提升。本文展示了 EM 的优化机制、分布调控效应、与 RL/SFT 的兼容性与边界,并在多个基准和模型上验证了其实用性。这一方法为构建低成本、高性能的语言模型优化策略提供了全新视角。