陶哲轩:o3-mini 纠正了我一个数学错误,十分钟解决原本一小时才能完成的题目

大模型持续震惊科学家!

以往一小时才能完成的代码,现在十分钟就能实现「生成、测试到得出结果」。

"大模型推广大神" 陶哲轩又来分享他的亲测体验了。

这一次 o3-mini 一眼识破并且纠正了他的一个错误,然后在它的帮助下快速完成了一道数学题的解答。

而在另一边,CMU 数学教授、美国奥数国家队前掌舵人罗博深 发现,GPT-o1 在卡内基梅隆大学数学本科考试中获得满分,而且每道题的解题时间不超过一分钟。

关键是,他专门设计的是全新的非标准问题,这些问题都是开卷的。

而普通学生的成绩分布 be like:

陶哲轩:o3-mini 纠正了我的错误

事情是这样的。

他在 MathOverflow 上遇到了这样一道题,由于答案不是封闭形式的,所以他想近似地模拟他。

首先,他要求 o3-mini-high 提供一些代码。结果在思考一分 12 秒之后,首先声明他试图计算的数量是无限的,但其实事实并非如此。此处 o3-mini 犯了个小错误。

不过它仍然提供了数值代码,确实粗略地近似了陶哲轩想要的数量(精确到小数点后一位)。

那时它意识到应该使用马尔可夫链理论来获得更精确的答案,于是先向 o3-mini-high 询问理论公式,然后编写代码来计算结果。

有趣的是,它能够纠正提示中的一个基本错误:把 min 写成了 max

并且给了完美的代码,然后陶哲轩在此基础上对这一问题给出更精确的数值答案。

对此,陶哲轩的评价是:

总的来说,o3 提供了相当不错的帮助;它犯了一个错误,我纠正了它,但我也犯了一个错误,它纠正了它。

而且以前我自己可能需要花一个小时的时间才能完成的代码,在大约十分钟内就生成、测试、修改并报告出来了。

也就在一周前,陶哲轩才点赞 o3-mini 不久

重建图论中一个标准(专家级)结果的证明,o3-mini 是完全可以 hold 住的。

大模型持续震惊数学家

而在另一边,罗博深也被 o1 的数学能力震惊到了。

他日常给本科生设计了五道数学题,分别涉及差分方程、线性代数、组合数学、数论、斐波那契数列性质等内容。

结果每道题均在一分钟内解决,甚至部分思考时间仅在 20 秒以内


而在班级上考满分的人当中,最快的人只用了 30 分钟

最后,他额外算了算这背后的成本。

已知 GPT-o1 每百万字的输出成本仅为 60 美元,这意味着每个问题的解决成本约为 5 美分。

对于大多数人无法在 1 小时内完成的工作来说,总共花费约 25 美分。

对此,他忍不住惊呼:Oh my goodness. 让我觉得已经接近「能够从事中等非程序性技术工作」的临界点。

值得一提的是,前两天其实还是 GPT-4 发布的两周年。两年之间,大模型的数学能力已经有了质的变化------各种数学难题都轻松拿下。

比如挑战最难本科数学考试,o1 Pro 只需 36 分钟 16 秒交卷。

最新的 o3 系列,在最难数学测试的 EpochAI Frontier Math(包含最新未公开前沿题目)中,比之前 SOTA 从 2 分提升到 25 分。

人类专业数学家解决其中一道题目也要花费数小时到数天,现在 o3 只需要思考几分钟了。

眼看着数学难题一一被挑战让数学家们惊呆,大模型下一个可能被攻克的领域会是哪一个呢?

你有没有遇到过类似被大模型能力惊呆的经历?欢迎在评论区与我们分享。

参考链接:

1\][mathstodon.xyz/@tao/114173...](https://link.juejin.cn?target=https%3A%2F%2Fmathstodon.xyz%2F%40tao%2F114173696303072269 "https://mathstodon.xyz/@tao/114173696303072269") \[2\][chatgpt.com/share/67d71...](https://link.juejin.cn?target=https%3A%2F%2Fchatgpt.com%2Fshare%2F67d71204-3510-800e-8bca-11bfbf53fc3d "https://chatgpt.com/share/67d71204-3510-800e-8bca-11bfbf53fc3d") \[3\][mathoverflow.net/questions/4...](https://link.juejin.cn?target=https%3A%2F%2Fmathoverflow.net%2Fquestions%2F486790%2Fmaximum-minimum-difference-between-fk1-and-average-of-f0-dots-f2k1%2F489533%23489533 "https://mathoverflow.net/questions/486790/maximum-minimum-difference-between-fk1-and-average-of-f0-dots-f2k1/489533#489533") \[4\][x.com/PoShenLoh/s...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2FPoShenLoh%2Fstatus%2F1900721180887203879 "https://x.com/PoShenLoh/status/1900721180887203879") --- **完** ---

相关推荐
朴拙数科19 分钟前
2025年AI搜索引擎开源项目全景指南:从核心框架到生态工具
人工智能·搜索引擎·开源
交响梦39 分钟前
医院信息系统平台总体架构原则
大数据·数据库·人工智能·架构·健康医疗
微臣愚钝1 小时前
深度学习-简介
人工智能
tonngw1 小时前
TensorFlow 基本原理与使用场景
人工智能·python·tensorflow
Matrix_112 小时前
论文阅读:Deep Hybrid Camera Deblurring for Smartphone Cameras
人工智能·计算摄影
jndingxin2 小时前
OpenCV计算摄影学(21)非真实感渲染之边缘保留滤波器edgePreservingFilter()
人工智能·opencv·计算机视觉
美狐美颜sdk2 小时前
跨平台直播美颜SDK开发指南:如何兼容iOS、Android与Web
人工智能·深度学习·美颜sdk·视频美颜sdk·美颜api
Sheakan2 小时前
【NeurIPS 2024】LLM-ESR:用大语言模型破解序列推荐的长尾难题
人工智能·语言模型·自然语言处理
Francek Chen2 小时前
【通义千问】蓝耘智算 | 智启未来:蓝耘MaaS×通义QwQ-32B引领AI开发生产力
人工智能·开源·aigc·通义千问
wjpwjpwjp08312 小时前
【3D视觉学习笔记2】摄像机的标定、畸变的建模、2D/3D变换
人工智能·笔记·深度学习·学习·计算机视觉·3d