数学大模型MAmmoTH:通过混合说明调整建立数学通才模型

向悦和陈文虎是该项目的主要作者。他们这个项目推出 MAmmoTH,这是一系列专为解决一般数学问题而定制的开源大型语言模型 (LLM)。 MAmmoTH 模型在 MathInstruct 上进行训练,MathInstruct 是我们精心策划的指令调整数据集。 MathInstruct 已编译 来自 13 个具有中间原理的数学数据集,其中 6 个具有我们新整理的原理。它拥有思想链(CoT)和思想计划(PoT)基本原理的混合,并且还确保广泛的 涵盖数学的不同领域。 CoT 和 PoT 的混合不仅可以释放工具使用的潜力,还可以针对不同的数学问题提供不同的思维过程。因此,MAmmoTH 系列实质上 在所有规模的 9 个数学推理数据集上,其性能优于现有开源模型,平均准确度增益在 12% 到 29% 之间。值得注意的是,我们的 MAmmoTH-7B 模型在 MATH(竞赛级别)上达到了 35% 数据集),超过最好的开源7B模型(WizardMath)25%,MAmmoTH-34B模型在MATH上达到46%的准确率,甚至超过了GPT-4的CoT结果。我们的工作强调了多样化问题的重要性 覆盖范围以及在开发高级数学通才模型时使用混合原理。

项目地址:https://tiger-ai-lab.github.io/MAmmoTH/

参考资料

https://www.aibase.com/zh/tool/34999

相关推荐
B博士20 分钟前
科研进展 | JAG: 大光斑高光谱激光雷达遥感辐射传输模型从垂直视角解锁森林叶绿素分布密码
人工智能·jag·高光谱激光雷达·森林分层叶绿素诊断
Yao.Li1 小时前
PVN3D ORT CUDA Custom Ops 实现与联调记录
人工智能·3d·具身智能
诺伦1 小时前
LocalClaw 在智能制造的新机会:6部门AI+电商政策下的工厂AI升级方案
人工智能·制造
小陈工3 小时前
Python Web开发入门(十七):Vue.js与Python后端集成——让前后端真正“握手言和“
开发语言·前端·javascript·数据库·vue.js·人工智能·python
墨染天姬7 小时前
【AI】端侧AIBOX可以部署哪些智能体
人工智能
AI成长日志7 小时前
【Agentic RL】1.1 什么是Agentic RL:从传统RL到智能体学习
人工智能·学习·算法
2501_948114248 小时前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠8 小时前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光8 小时前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好8 小时前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型