【AI论文】数学推理能否提升大型语言模型(LLM)的通用能力?——探究大型语言模型推理能力的可迁移性摘要:数学推理已成为大型语言模型(LLMs)取得进展的典型代表,新模型在MATH和AIME等基准测试中迅速超越人类水平。然而,随着数学排行榜每周不断更新,我们有必要思考:这些进步反映的是更广泛的问题解决能力,还是仅仅局限于特定任务的过拟合?为回答这一问题,我们在涵盖数学、科学问答、智能体规划、编程以及标准指令遵循等广泛任务上,对20多个开源权重且经过推理微调的模型进行了评估。令人惊讶的是,我们发现大多数在数学任务上表现优异的模型,未能将其优势迁移至其他领域。为严谨研究这一现象,我们使用仅包含数学数据但采用