【AI论文】数学推理能否提升大型语言模型（LLM）的通用能力？——探究大型语言模型推理能力的可迁移性

摘要：数学推理已成为大型语言模型（LLMs）取得进展的典型代表，新模型在MATH和AIME等基准测试中迅速超越人类水平。然而，随着数学排行榜每周不断更新，我们有必要思考：这些进步反映的是更广泛的问题解决能力，还是仅仅局限于特定任务的过拟合？为回答这一问题，我们在涵盖数学、科学问答、智能体规划、编程以及标准指令遵循等广泛任务上，对20多个开源权重且经过推理微调的模型进行了评估。令人惊讶的是，我们发现大多数在数学任务上表现优异的模型，未能将其优势迁移至其他领域。为严谨研究这一现象，我们使用仅包含数学数据但采用不同微调方法的Qwen3-14B模型进行了对照实验。我们发现，经强化学习（RL）微调的模型在各领域均展现出良好的泛化能力，而经监督式微调（SFT）的模型则常常遗忘通用能力。潜在空间表征和词元空间分布偏移分析表明，SFT会导致显著的表征和输出偏移，而RL则能保留通用领域的结构。我们的研究结果表明，有必要重新审视标准的训练后调整方法，特别是对于推进推理模型而言，不应过度依赖SFT蒸馏的数据。Huggingface链接：Paper page，论文链接：2507.00432

研究背景和目的

研究背景 ：

近年来，大型语言模型（LLMs）在数学推理任务上取得了显著进展，新模型在MATH、AIME等数学基准测试中不断超越人类水平。这一趋势引发了关于这些进步是否真正反映模型更广泛问题解决能力的疑问，或者它们是否仅仅是针对特定任务数据的过拟合。随着数学排行榜的不断提升，模型在数学以外的领域（如科学问答、智能体规划、编程及标准指令遵循等）的表现却鲜有系统评估。因此，理解数学推理能力能否迁移至其他任务领域，成为当前研究的重要课题。

研究目的 ：

本研究旨在探究数学推理能力在大型语言模型中的可迁移性，即评估经过数学推理微调的模型在其他非数学任务上的表现。具体而言，研究希望通过系统的实验设计和分析，明确以下几点：

数学推理能力的提升是否能够转化为其他领域的问题解决能力。
不同微调方法（如监督式微调SFT与强化学习RL）对模型泛化能力的影响。
模型内部表征和输出分布的变化如何影响其跨领域表现。

研究方法

本研究采用了多种方法来系统评估数学推理能力在大型语言模型中的可迁移性：

模型选择与评估基准：

选择了超过20个开源权重且经过推理微调的模型，这些模型在数学推理任务上表现优异。
评估基准涵盖了数学、科学问答（GPQA、ACPBench等）、智能体规划（LiveCodeBench）、编程及标准指令遵循（CoQA、IFEval等）等多个领域。

微调方法对比：

采用监督式微调（SFT）和强化学习（RL）两种不同的微调方法，对Qwen3-14B模型进行对照实验。
SFT模型使用教师模型生成的思维链（CoT）轨迹进行训练，而RL模型则通过奖励信号优化策略，不直接依赖具体答案。

表征与分布分析：

利用潜在空间主成分分析（PCA）来量化模型内部表征的变化。
通过KL散度和词元排名偏移分析，评估模型输出分布的变化。

研究结果

可迁移性差异：

大多数在数学任务上表现优异的模型，未能将其优势迁移至其他领域，表明数学推理能力的提升并不自动等同于更广泛的问题解决能力。

微调方法的影响：

RL微调的模型在各领域均展现出良好的泛化能力，而SFT微调的模型则常出现性能下降，尤其是在非推理任务上。
具体而言，RL模型在数学、其他推理任务及非推理任务上的Transferability Index（可迁移性指数）均显著高于SFT模型。

表征与分布变化：

PCA分析显示，RL微调的模型在潜在空间中的表征变化较小，表明其内部结构更为稳定。
KL散度和词元排名偏移分析进一步证实，SFT微调导致模型输出分布发生显著变化，而RL微调则能更好地保留原始模型的输出特性。

研究局限

模型与数据多样性：

尽管选择了多个开源模型进行评估，但这些模型可能仍受限于其预训练数据和架构设计，无法完全代表所有类型的大型语言模型。
微调数据集主要来源于数学领域，可能缺乏对其他领域任务的全面覆盖。

评估指标局限性：

主要依赖准确率作为评估指标，可能无法全面反映模型在各任务上的复杂表现和泛化能力。
对于非推理任务，缺乏更细致的评估标准来区分模型在不同场景下的表现差异。

实验条件控制：

尽管进行了对照实验，但不同微调方法在实验条件（如学习率、批次大小等）上的细微差异可能对结果产生一定影响。

未来研究方向

扩展模型与数据多样性：

未来研究可以纳入更多类型的大型语言模型和更广泛的数据集，以进一步验证数学推理能力的可迁移性。
探索不同领域数据混合微调对模型泛化能力的影响。

细化评估指标：

开发更全面的评估指标来量化模型在各任务上的表现，特别是针对非推理任务。
引入人类评估来补充自动评估指标，提高评估结果的可靠性和有效性。

深入分析微调机制：

进一步探究SFT和RL微调方法在模型内部表征和输出分布上的具体影响机制。
研究如何通过改进微调策略来优化模型的跨领域泛化能力，减少过拟合现象。

实际应用探索：

将研究成果应用于实际场景中，评估数学推理能力迁移至其他领域后对具体任务（如医疗诊断、金融分析等）的改进效果。
探索如何通过多任务学习或迁移学习等方法进一步提升模型的通用性和实用性。