时间过得很快,OpenAI为期12天的发布会终于落下帷幕。
在前面11天的发布会里,OpenAI宣布了许许多多的新功能、新产品。其中有些新产品很令人振奋,比如o1和o1 Pro模型,虽然很贵,但也真的是很强大。
然而,也有一些OpenAI的产品令人大失所望,比如今年年初就在大肆宣传的Sora,大家真正使用起来发现也就那么回事。
小灰自己这几天也在使用Sora,虽然没有网上说的那么不堪,但的确是偏科严重。Sora在人物动作细节方面的表现还可以,但是对提示词的理解有一定偏差,视频质感也差强人意。
就在大家略感失望的情绪下,2024年12月20日,OpenAI放出了最后的王炸:新一代推理模型o3,即将问世!
为什么是o3?
可能有人会问:新一代模型为什么不叫o2,怎么直接就o3了呢?
其实原因很简单,英国有一家电信服务提供商的名字就叫O2,如果取这个名字可能造成版权或商标冲突,因此新模型直接跳到了o3版本。
刚刚发布的o1 Pro模型都已经这么强大了,未来的o3模型又会达到怎样的"变态"程度呢?
先来说一说编程领域。
OpenAI的大模型经过了两套测试,一套是软件工程师基准测试(左图),一套是编程竞赛平台测试(右图)。无论在哪一项测试中,o3模型的表现都比o1模型还要强得多。
尤其是codeforces编程竞赛的测试,含金量非常高,全球有16万程序员在这个平台参与竞争。
发布会上这个白衣服工程师小哥的codeforces成绩是2500多,能在OpenAI公司跟山姆奥特曼坐在一起直播发布会的人,技术有多牛可以想见,绝对是编程高手中的高手。
然而,o3模型在这个平台上的得分高达2727,排名175,这个成绩绝对秒杀现实里的许多编程大神!
再来说一说数学领域。
在数学基准测试,以及博士级科学考试GPQA当中,o3也取得了不俗的成绩。其中数学基准测试,o3接近满分,基本上只是错了一道题。
而在GPQA考试当中,大部分真正的数学博士也就能达到70多分的水平,而o3的成绩高达87.7分。
这还不算完,OpenAI还让o3模型经历了史上最难的,由前沿AI机构Epoch AI 开发的一套全新数学基准测试。这是由一套全新的、从未发表过的、绝对变态难度的问题所组成。
即使世界最顶尖的数学家,也要花费好几天时间才能解决里面的一道问题。目前所有的AI模型,在这个基准测试的准确率都不到2%。
但o3模型在测试中的正确率超过了25%!
我们什么时候能用上o3模型?
就像o1模型一样,o3模型也会推出多个版本,包括o3 mini 和o3,估计未来也很可能推出o3 Pro。
目前o3 mini和o3都还处于早期预览的状态,暂不对外开放。其中o3 mini预计在2025年初就能正式上线,而o3模型大概率会在2025年的下半年问世。
o3模型,真的很令人期待!
关于AI未来的一些思考
o3模型算不算是达到了通用人工智能(AGI)的程度呢?暂时还不算。
但未来的o4、o5、o6模型呢?以当下AI技术的进步速度,我们距离AGI的实现恐怕已经不远了。
早在十年以前,就有人高喊着程序员要被AI取代。在当时,这句话不过是无稽之谈,而放在当下,却一点也不像是玩笑了。
在未来的三五年里,IT领域很可能由全员人类程序员的工作模式,转变为少量懂编程懂AI的人控制几十上百个AI模型来完成所有的开发工作。而大多数能力平庸的程序员,确实很有可能面临失业。
其实面临失业的又何止是程序员?所有重复性、半重复性劳动的岗位,都有可能逐渐被AI所取代,许多人的生活和工作都将会发生翻天覆地的变化。
不过,我相信AI的发展终究是利大于弊。我们人类很聪明,但是在大自然和时间长河面前也显得很渺小。有了AI这个超级智能,或许可以引导我们达成许多过去难以想象的突破。
突破可控核聚变、探索宇宙、实现永生......在这些伟大目标面前,暂时的失业能算是多大点事儿呢?
尽管AI并不完美,小灰还是热切期盼着AI技术的进一步发展,希望2025年人工智能可以为人类带来更多的惊喜!