仅用一条无标签数据,如何让大模型推理能力飙升?——One-shot Entropy Minimization 论文分享

导语

1 引言

大语言模型(LLMs)的推理能力主要依赖于如监督微调(SFT)和强化学习(RL)等后训练策略。然而,强化学习往往需要大量标注数据和精心设计的奖励信号,训练成本高昂。本文提出了一种全新的后训练范式------One-shot Entropy Minimization(EM),只需一条未标注数据和 10 次优化步骤,就能实现与强化学习相媲美甚至超越的推理性能。

2 方法

熵最小化(Entropy Minimization,EM)

EM 的核心思想是:让模型对自己生成的 token 更有"信心"。具体实现上,本文以 token-level 熵作为优化目标,具体公式为:
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> H t = − ∑ v ∈ V p θ ( v ∣ y < t , x ) log ⁡ p θ ( v ∣ y < t , x ) H_t = -\sum_{v \in V} p_\theta(v | y_{<t}, x) \log p_\theta(v | y_{<t}, x) </math>Ht=−v∈V∑pθ(v∣y<t,x)logpθ(v∣y<t,x)

其中 <math xmlns="http://www.w3.org/1998/Math/MathML"> V V </math>V 为词表, <math xmlns="http://www.w3.org/1998/Math/MathML"> x x </math>x 为输入提示, <math xmlns="http://www.w3.org/1998/Math/MathML"> y y </math>y 为模型生成的响应, <math xmlns="http://www.w3.org/1998/Math/MathML"> θ \theta </math>θ 为模型参数。最终的 EM 损失为生成序列中所有 token 熵的平均值。

这一目标无需标签,且是可导的闭式表达,训练过程可端到端进行,不依赖奖励建模或价值估计。

行为方差驱动的样本选择

不同 prompt 对模型产生的优化信号差异极大。为挑选最能触发熵梯度的提示,本文提出了基于 pass@k 精度方差的选样策略。具体方法为:

  • 对每条未标注提示,生成 k 个响应,统计其是否正确;
  • 计算成功率方差 <math xmlns="http://www.w3.org/1998/Math/MathML"> V a r p a s s @ k ( x ) Var_{pass@k(x)} </math>Varpass@k(x);
  • 选择方差最大的 prompt 作为训练对象。

这条 prompt 会在后续 10 步训练中保持固定。本文选择的一个样例展示如下:

3 实验

实验设置与结果

在 Qwen2.5-Math-7B 等基础模型上,本文仅使用一条 prompt,设置学习率为 <math xmlns="http://www.w3.org/1998/Math/MathML"> 2 × 1 0 − 5 2\times10^{-5} </math>2×10−5,温度为 0.5,训练步数为 10,无需标签与奖励,即可获得大幅性能提升,实验结果如下表所示:

可以看到在MATH500、Minerva Math、Olympiad Bench、AMC23等数据集上普遍提升20分以上,表现优于多种强化学习方法。

实验分析

Logits 分布偏移效应

在大语言模型中,logits 是指模型在每一步生成 token 时,尚未经过 softmax 的原始输出分数。logits 的分布反映了模型在候选词上的置信程度。本文发现,在 EM 训练过程中,logits 分布整体向右偏移,即高分 token 更集中、低分 token 被进一步压低,从而提升了整个分布的偏斜度(Skewness 上升)。这种右偏表示模型对少数候选 token 更加自信,有利于生成时优先选择正确推理路径,提升准确率与稳定性。

相对地,强化学习训练会引导模型重新排序 token 的偏好,压制那些高分但偏离标注的 token,导致 logits 分布向左偏移,从而增加生成的不确定性并影响效果。EM 所带来的 logits 右偏效应,实质上是一种分布塑形行为,对提升语言模型的推理质量具有重要作用。

EM 的解耦性与高效性

实验显示 EM 损失与推理性能并不严格耦合------损失继续下降时,性能可能反而下降。这表明 EM 更像是一种"分布塑形工具"而非传统学习策略,其主要效用在训练初期即可实现,训练收敛极快。

推理温度的非对称性

与 RL 模型不同,EM 模型在推理阶段更适合使用低温度或贪婪解码。推理温度越高,性能反而越差。这与 EM 提升高置信 token 的机制相一致。

模型适配性与可移植性

本文在多个模型(Qwen2.5、LLaMA、RL-trained 模型)上测试 One-shot EM,均观察到显著提升。尤其在推理能力较强的模型上,EM 效果更为突出。而对于已经过 RL 微调的模型,EM 可能带来性能下降,需谨慎应用。

One-shot vs Multi-shot

实验显示,1-shot EM 优于 multi-shot,不仅收敛更快,而且损失更平稳。这归因于单例训练减少了样本偏差和输出波动,提升了训练稳定性和泛化能力。

4 总结

One-shot Entropy Minimization 提供了一种极简、高效、无监督的大语言模型后训练方案。无需标签、无需奖励,仅靠一条 prompt 和 10 步训练,即可实现大幅推理性能提升。本文展示了 EM 的优化机制、分布调控效应、与 RL/SFT 的兼容性与边界,并在多个基准和模型上验证了其实用性。这一方法为构建低成本、高性能的语言模型优化策略提供了全新视角。

相关推荐
一切皆是因缘际会35 分钟前
从概率拟合到内生心智:2026 下一代 AI 架构演进与落地实践
人工智能·深度学习·算法·架构
科研前沿1 小时前
镜像视界 CameraGraph™+多智能体:构建自感知自决策的全域空间认知网络技术方案
大数据·运维·人工智能·数码相机·计算机视觉
爱学习的张大1 小时前
具身智能论文问答(2):Diffusion Policy
人工智能
AI科技星1 小时前
全域数学·72分册·射影原本 无穷维射影几何卷细化子目录【乖乖数学】
人工智能·线性代数·算法·机器学习·数学建模·数据挖掘·量子计算
Chef_Chen1 小时前
论文解读:MemOS首次把记忆变成大模型的一等公民资源,Scaling Law迎来第三条曲线
人工智能·agent·memory
风落无尘1 小时前
《智能重生:从垃圾堆到AI工程师》——第四章 变化的艺术
人工智能·线性代数·算法
发哥来了1 小时前
AI视频生成模型选型指南:五大核心维度对比评测
大数据·人工智能·机器学习·ai·aigc
发哥来了1 小时前
AI驱动生产线的实际落地:一个东莞厂商的技术选型实录
大数据·人工智能·机器学习·ai·aigc
AC赳赳老秦1 小时前
知识产权辅助:用 OpenClaw 批量生成专利交底书 / 软著申请材料,自动校验格式与内容合规性
java·人工智能·python·算法·elasticsearch·deepseek·openclaw
AI科技2 小时前
原因大揭秘:为什么别人的编曲伴奏做得又快又好,2026年度甄选5款AI编曲软件汇总
人工智能