数学大模型MAmmoTH:通过混合说明调整建立数学通才模型

向悦和陈文虎是该项目的主要作者。他们这个项目推出 MAmmoTH,这是一系列专为解决一般数学问题而定制的开源大型语言模型 (LLM)。 MAmmoTH 模型在 MathInstruct 上进行训练,MathInstruct 是我们精心策划的指令调整数据集。 MathInstruct 已编译 来自 13 个具有中间原理的数学数据集,其中 6 个具有我们新整理的原理。它拥有思想链(CoT)和思想计划(PoT)基本原理的混合,并且还确保广泛的 涵盖数学的不同领域。 CoT 和 PoT 的混合不仅可以释放工具使用的潜力,还可以针对不同的数学问题提供不同的思维过程。因此,MAmmoTH 系列实质上 在所有规模的 9 个数学推理数据集上,其性能优于现有开源模型,平均准确度增益在 12% 到 29% 之间。值得注意的是,我们的 MAmmoTH-7B 模型在 MATH(竞赛级别)上达到了 35% 数据集),超过最好的开源7B模型(WizardMath)25%,MAmmoTH-34B模型在MATH上达到46%的准确率,甚至超过了GPT-4的CoT结果。我们的工作强调了多样化问题的重要性 覆盖范围以及在开发高级数学通才模型时使用混合原理。

项目地址:https://tiger-ai-lab.github.io/MAmmoTH/

参考资料

https://www.aibase.com/zh/tool/34999

相关推荐
珊珊而川1 小时前
Reflexion对ReAct的改进
人工智能
量化交易曾小健(金融号)1 小时前
GPT-5 Instant能修补模型情商漏洞了
人工智能
听到微笑1 小时前
LLM 只会生成文本?用 ReAct 模式手搓一个简易 Claude Code Agent
人工智能·langchain·llm
沐雪架构师1 小时前
让 Agent 说“机器能懂的话”——LlamaIndex 构建 Agent 的结构化输出策略
人工智能
Elastic 中国社区官方博客1 小时前
在 Elasticsearch 中改进 Agentic AI 工具的实验
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
AI数据皮皮侠2 小时前
中国地级市旅游人数、收入数据(2000-2023年)
大数据·人工智能·python·深度学习·机器学习·旅游
mooooon L2 小时前
DAY 43 复习日-2025.10.7
人工智能·pytorch·python·深度学习·神经网络
zzywxc7872 小时前
AI 在金融、医疗、教育、制造业等领域都有广泛且深入的应用,以下是这些领域的一些落地案例
人工智能·金融·自动化·prompt·ai编程·xcode
你的大佬9992 小时前
阿里云百炼ai模型
人工智能·阿里云·云计算
koo3642 小时前
李宏毅机器学习笔记16
人工智能·笔记·机器学习