AI 奥数大奖出炉,英伟达摘桂冠!14B 破解 34 题暴击 DeepSeek R1

【新智元导读】AIMO2 最终结果出炉了!英伟达团队 NemoSkills 拔得头筹,凭借 14B 小模型破解了 34 道奥数题,完胜 DeepSeek R1。

第二届人工智能数学奥林匹克竞赛(AIMO2)开奖了!

作为大赛顾问委员会的一员,陶哲轩激动地宣布了最新的结果------英伟达团队 AI 成功破解了 34 道题(共 50 题)。

这一次,50 道测试题保持了与 AIMO1 相同「数值答案」形式基础上,进一步提升了「抗暴力破解」的难度。

这场由 Kaggle 主办的 AI 竞赛,参赛者必须使用开源 LLM,在规定的有限算力条件下,用 AI 完成解题。

不过,目前最终成绩仍处于审核阶段,但现有数据已能确定大概率的胜者。

英伟达深度学习研究员分享,团队仅用了 14B 小模型,就拿下了比赛第一。

让人惊喜的是,微调后的 14B 竟然超越了 405B 的 DeepSeek R1。

那么,他们是如何做到的呢?

英伟达团队摘桂冠,14B 攻克 34 题

AIMO2 每年都会评选 5 名获胜者,第一名便是英伟达团队------NemoSkills。

为了让大家更直观地对这个分数有一个认识:主办方使用了 DeepSeek R1 405B 在同一个测试数据上,进行了无限计算 / 时间的测试。

结果发现,R1-405B 得分仅仅 20 分左右。

而英伟达微调出的 14B 模型,以更小参数规模,以及时间和硬件限制下拿下了惊人的 34 分。

这款模型便是 Qwen-14B,在数百万合成数学测试集上进行了微调,能够支持 CoT 推理。

最大的亮点是高度优化的推理,仅使用了 4 个 L4 GPU,在短短 5 小时内解决了 50 个问题中的 34 个。

目前,他们尚未提交解决方案,所以一些技术细节还无法窥探。

这个团队一共由 7 个人组成,他们分别是 Christof Henkel、Darragh Hanley、Ivan Sorokin、Benedikt Schifferer、Igor Gitman、Shubham Toshniwal 和 Ivan Moshkov。

除了英伟达,还有哪些团队取得了精彩的表现?

清华拿下第二

第二名是来自清华和微软的三人团队,分别是清华大学研究助理教授 Foxfi Ning、微软的高级研究员 Zinan Lin 以及清华学子 yiyouyc。

左右滑动查看

在公开排行榜上, 他们得分 34/50(排名第一),在私有排行榜上得分 31/50(排名第二)。

最为关键的是,他们是目前 Top-5 中唯一公开解决方法的参赛团队。

本次比赛要求同时优化效率和推理性能。

目前,排名前 5 中,只有排名第二的参赛团队公布了解决方法。

他们的最终解决方案由三个主要部分组成:

第一部分:推理导向训练 ------ 提升模型的推理能力 阶段 1 - SFT(监督微调)和阶段 2 - DPO(数据增强优化)使用精选数据。

第二部分:效率优化 ------ 提升推理效率 选择合适的推理引擎、权重量化、KV 缓存量化。

第三部分:推理时策略 ------ 改善效率与推理性能的权衡 设计有效的提示语、进行自一致性聚合、在样本 / 问题级别进行早停以及调整一些启发式超参数。

训练脚本基于 Light-R1 项目。

在本地验证方面,用了 AIME 2025 测试集(30 个问题)以及参考集(10 个问题),评估了平均样本准确率和通过自一致性聚合的准确率,以获得参赛团队试验解决方案的初步判断。

第三名,Nokron,AI 得分 30,4 年前加入 Kggle。

第四名,Søren Ravn Andersen,AI 得分 29,10 年前加入 Kaggle。

第五名,来自浙江杭州的匿名选手,AI 得分 29,6 年前加入了 Kaggle。

AIMO2 比赛介绍

AIMO 是什么来头?

这是第二届 AIMO 进步奖竞赛,第一届的 AIMO 进步奖于 2024 年 7 月由 Project Numina 团队赢得。

这次竞赛增加了奖金池,提供了全新的题目数据集,为参赛者提供更多算力支持,并更新了关于使用开源大语言模型(LLM)的规则。

数学推理能力是人工智能发展的一个关键里程碑,是解决许多复杂问题的基石,比如工程奇迹或复杂的金融模型。

然而,目前的人工智能在这方面的能力还比较有限。

人工智能数学奥林匹克(AIMO)是一个总金额高达 1000 万美元的基金,旨在激励开发能够与国际数学奥林匹克(IMO)顶尖人类选手表现相当的开源 AI 模型。

本届竞赛包含 110 道数学题目,涵盖代数、组合数学、几何和数论。

相比第一届,题目难度有所提升,大约达到国家奥林匹克竞赛的水平。

这些题目还被设计为「对 AI 来说特别难」,需要较强的数学推理能力,并且已经针对当前开源大语言模型的能力进行了测试。

为了避免训练数据与测试数据混淆的问题,竞赛采用了由国际解题团队创作的全新数学题目。

评估方式

参赛者的提交将根据预测结果与真实答案(ground-truth labels)的准确率进行评估。

简单来说,排名依据是预测答案与真实答案之间完全匹配的比例。

在这场比赛中,每个真实答案是一个 0 到 999 之间的整数。

奖项设置

本次竞赛总奖金达到了 211.7152 万美元

排名前五团队的奖金:

  • 第一名:26.2144 万美元

  • 第二名:13.1072 万美元

  • 第三名:6.5536 万美元

  • 第四名:3.2768 万美元

  • 第五名:1.6384 万美元

总体进步奖:

  • 总体进步奖将颁发给在公开和私有测试集上均获得至少 47/50 分的最高排名团队。

  • 在前五名奖金分配后,剩余的奖金将全部颁发给总体进步奖得主。

  • 如果某团队获得总体进步奖,奖金将至少为 158.9248 万美元。

  • 如果本届竞赛没有团队获得总体进步奖,剩余奖金将滚入下一届竞赛,奖金额度和分配规则保持不变。

代码要求

提交必须通过 Notebook 完成。提交按钮在提交后激活需满足以下条件:

  • CPU Notebook 运行时间 ≤ 9 小时

  • GPU Notebook 运行时间 ≤ 5 小时

  • 禁用互联网访问

  • 允许使用免费且公开的外部数据,包括预训练模型

  • 提交文件必须通过 API 生成

参考资料:

x.com/kagglingdie...

mathstodon.xyz/@tao/114319...

www.kaggle.com/competition...

相关推荐
DragonnAi1 分钟前
基于项目管理的轻量级目标检测自动标注系统【基于 YOLOV8】
人工智能·yolo·目标检测
AI绘画咪酱14 分钟前
【CSDN首发】Stable Diffusion从零到精通学习路线分享
人工智能·学习·macos·ai作画·stable diffusion·aigc
DeepSeek+NAS19 分钟前
耘想WinNAS:以聊天交互重构NAS生态,开启AI时代的存储革命
人工智能·重构·nas·winnas·安卓nas·windows nas
2201_7549184135 分钟前
OpenCv--换脸
人工智能·opencv·计算机视觉
ocr_sinosecu136 分钟前
OCR进化史:从传统到深度学习,解锁文字识别新境界
人工智能·深度学习·ocr
Stara05111 小时前
YOLO11改进——融合BAM注意力机制增强图像分类与目标检测能力
人工智能·python·深度学习·目标检测·计算机视觉·yolov11
movigo7_dou1 小时前
关于深度学习局部视野与全局视野的一些思考
人工智能·深度学习
itwangyang5201 小时前
AIDD-人工智能药物设计-大语言模型在医学领域的革命性应用
人工智能·语言模型·自然语言处理
热心网友俣先生1 小时前
2025年泰迪杯数据挖掘竞赛B题论文首发+问题一二三四代码分享
人工智能·数据挖掘