字节跳动深夜交卷:数学金牌拿到手软,Seed Prover 1.5强在哪?

还记得去年大家还在讨论大模型做小学奥数题能不能及格吗?就在2025年的平安夜,字节跳动Seed团队甩出了一个重磅炸弹:Seed Prover 1.5。

这不是一次普通的版本更新,这更像是一个只会做选择题的学生,突然进化成了能写出严谨证明过程的数学家。简单来说,这个AI现在不仅能做题,还能用Lean语言写出可被计算机编译验证的代码,直接把从本科到博士难度的数学题"拿捏"了。

作为一名长期关注AI进化的观察者,看完他们的技术报告,我最大的感受是:AI解题的逻辑变了。

哪怕是陶哲轩看了也要愣一下的战绩

先别管技术细节,我们直接看这东西到底有多强。

团队拿它去跑了2025年的国际数学奥林匹克(IMO)真题。结果是,在前5道题里,它拿下了35分(满分42)。这个分数意味着什么?意味着它已经稳稳地拿到了金牌。而且,它不是那种"我觉得答案是X"的模糊回答,而是在16.5小时内,生成了完整、可运行、逻辑无懈可击的Lean证明代码。

再看被称为"北美最难本科数学竞赛"的Putnam竞赛。2025年的12道赛题,它搞定了11道,耗时不到9小时。而在Putnam的历史题库里,它的解决率飙到了88%,刷新了目前的世界最佳纪录。

更有意思的是,在代表硕士难度的Fate-H测试集中,它的解决率是80%;到了博士难度的Fate-X,虽然降到了33%,但也足以让很多在该领域摸爬滚打的人类研究员感到背脊发凉。

不再是"瞎猜",而是像人一样思考

以前的大模型做数学题,很多时候像是在"背题库"或者"文字接龙",一旦逻辑链条太长,它就开始胡言乱语。

Seed Prover 1.5 的核心突破在于,它换了一种活法。字节跳动这次搞出了一个全新的架构,叫 Agentic Prover

你可以把它想象成一个坐在图书馆里的研究员,而不是一个只会答题的机器。

首先,它学会了用工具。 以前的模型是一口气把答案憋出来,憋错了就完了。Seed Prover 1.5 不一样,它把自己当成一个智能体(Agent)。在证明过程中,它会去查阅数学库(Mathlib),看看有没有现成的定理可以用;它甚至会写一段Python代码来验证自己的某个猜想对不对。这种"增量式"的解题方式,允许它一步步搭建证明的大厦,而不是试图一步登天。

其次,它有了"直觉"。 数学证明最难的是从自然语言的"思路"到形式化代码的"落地"。团队给它装了一个"Sketch Model(草图模型)"。这就好比人类数学家解题时,先在草稿纸上画出大概的思路框架,有了这个直觉引路,再把复杂的命题拆解成一个个小问题,最后才去写那些严谨枯燥的代码。

最后,它是被"骂"出来的。 训练这个模型用的是大规模强化学习。它的老师是铁面无私的Lean编译器。代码写对了就是对,写错了就是错,没有中间地带。在这种绝对客观的反馈下,模型在数百万次的尝试中,硬生生把解题成功率从50%练到了90%。

还是有局限,但未来已来

当然,要把它吹成"数学之神"还为时尚早。

Seed团队自己也很诚实,他们在报告里坦言,目前的Seed Prover 1.5 还是个"竞赛型选手"。它最擅长的是那些规则清晰、背景封闭的竞赛题。如果你扔给它一篇几十页的前沿数学文献,让它基于此进行长链条的复杂推理,它可能还是会懵圈。

但这并不妨碍它的里程碑意义。

它证明了机器不再仅仅是语言的模仿者,而是开始具备了严谨逻辑的探索能力。当AI开始学会像数学家一样查资料、写草稿、验证猜想,并最终给出一段可编译的证明代码时,我们距离那个能在科研领域辅助人类突破未知的AI助手,其实已经不远了。

对于数学系的学生和AI研究者来说,Seed Prover 1.5 的API后续开放,绝对是一个值得第一时间去排队体验的大事件。毕竟,谁不想看看这个拿了IMO金牌的"硅基大脑",到底是怎么思考的呢?

如果你也对最新的AI信息感兴趣或者有疑问 都可以加入我的大家庭 第一时间分享最新AI资讯、工具、教程、文档 欢迎你的加入!!!😉😉😉

公众号:墨风如雪小站

相关推荐
PaperRed ai写作降重助手1 小时前
AI 论文写作工具排名(实测不踩坑)
人工智能·aigc·ai写作·论文写作·智能降重·辅助写作·降重复率
阿杰学AI4 小时前
AI核心知识80——大语言模型之Slow Thinking和Deep Reasoning(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·慢思考·深度推理
SmartBrain5 小时前
OCR 模型在医疗场景的选型研究
人工智能·算法·语言模型·架构·aigc·ocr
阿杰学AI6 小时前
AI核心知识79——大语言模型之Knowledge Conflict(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·rag·知识冲突
PaperRed ai写作降重助手9 小时前
主流 AI 论文写作工具排名(2026 最新)
人工智能·aigc·ai写作·论文写作·论文降重·论文查重·辅助写作
小程故事多_809 小时前
RAG分块天花板?LGMGC多粒度语义分块策略深度解析与实践思考
人工智能·aigc
SmartBrain10 小时前
AI算法工程师面试:大模型和智能体知识(含答案)
人工智能·算法·语言模型·架构·aigc
renhongxia110 小时前
知识图谱如何在制造业实际落地应用
人工智能·语言模型·自然语言处理·aigc·知识图谱
学习吧~技术储备12 小时前
ComfyUI基础学习笔记
ai作画·aigc
GISer_Jing13 小时前
WebGL跨端兼容实战:移动端适配全攻略
前端·aigc·webgl