开年炸场:DeepSeek的"斯普特尼克时刻"
2025年的开局,属于DeepSeek,没有争议。
1月20号,DeepSeek R1正式发布,开源。性能逼近OpenAI o1,训练成本不到600万美金------硅谷花的钱是它的几十倍。一周之内登顶140个国家的App Store,日活18天破1500万,增速是ChatGPT的13倍。华尔街直接慌了,英伟达股价跳水,有人管这叫AI的"斯普特尼克时刻"------就是当年苏联发射第一颗卫星,让美国人知道自己不是唯一玩家的那个时刻。
它真正震动行业的不只是性能,而是证明了一件事:你不需要几十亿美金和几万张H100,也能训出顶级模型。强化学习替代传统的监督微调,MoE架构把成本打下来------DeepSeek把"大力出奇迹"的信仰给动摇了。
同一天,月之暗面也发了Kimi K1.5推理模型,技术路径跟R1惊人地相似,但传播度差了十万八千里。这行就是这样,先手优势加上叙事张力,DeepSeek吃掉了所有的关注度。
一季度:推理模型的井喷
DeepSeek炸完之后,各家突然醒过来了,推理模型成了最热的赛道。
OpenAI在1月底放了o3-mini ,首次对免费用户开放推理模型,在STEM领域表现很强,响应速度比o1-mini快了24%。紧接着2月底,发布了GPT-4.5(代号Orion),这是OpenAI最后一个"纯预训练"模型------从此以后,所有新模型都会内置推理能力。Sam Altman自己说的,以后不会再有不会"思考"的GPT了。
Anthropic这边2月24号放了Claude 3.7 Sonnet,号称"第一个混合推理模型"------它同时支持快速回答和深度思考两种模式,你可以选让它想多深。这个设计思路其实挺聪明的,不是所有问题都需要烧算力去推理。
Google 2月初发了Gemini 2.0系列------Flash、Flash-Lite、Pro三个档位一起上。2.0 Flash在发布时就让人眼前一亮,速度快、结果好,一扫之前"Google大模型不行"的印象。2.0 Pro支持调用搜索和执行代码,往Agent方向走了一大步。
春天:Agent元年正式开幕
如果说2025年有一个关键词,那就是Agent。
3月6号,一家叫Monica.im的中国团队发了Manus,号称全球首款通用AI Agent。它能自己规划任务、操作电脑、回邮件、做表格、筛简历、分析股票,还能把结果直接交付给你。不是那种"帮你写个草稿你自己改",是真的替你干活。GAIA测试上直接超了OpenAI的同类产品。
Manus火得很快,4月就拿了7500万美金融资,估值冲到5亿。更戏剧性的是年底被Meta收购了------从校园创业到被巨头收编,剧本写得比电影还精彩。
OpenAI早在1月23号就发了Operator,也是个能在网页上自主执行任务的Agent。但说实话,跟Manus的出圈效应比,差了不少声量。
这一年,Agent从概念变成了产品。AI从"你问它答"进化到"你交代它干",这个转变意义比很多人意识到的要深得多。
四月:Meta搅局 + OpenAI出牌
4月初,Meta扔了一颗炸弹------Llama 4开源,三个版本一起上。Scout版1090亿参数、1000万token上下文(开源最长)、单卡H100就能跑。Maverick版4000亿参数、128个专家模块,多模态原生融合。还有个2万亿参数的Behemoth在训练中。
MoE架构让Llama 4用1/5的参数量就能打到GPT-4o的水平,API价格直接干到地板。有开发者开玩笑说"OpenAI的API账单终于有救了"。
4月16号,OpenAI祭出o3和o4-mini。这俩模型有个里程碑式的突破:首次实现了"看图思考"------你给它一张模糊的白板照片或复杂图表,它能用推理链来分析图像内容。更关键的是,它们能在一个对话里自主调用搜索、Python、图像分析等所有工具,不用你一步步引导。Sam Altman说o3"接近天才水平"。o4-mini在AIME 2025上通过率99.5%,带解释器时100%------比绝大多数人类数学选手强。
五月:Claude 4,编程能力的天花板
5月22号,Anthropic放了Claude Opus 4和Claude Sonnet 4。
这两个模型在编程圈子里炸了。Claude Opus 4能连续编程7小时不崩,在SWE-bench上的表现让很多程序员直接把它当成了日常开发工具。它不仅写代码强,更关键的是它"理解"代码------能看懂整个项目的上下文,帮你做架构级别的重构,不是那种只会补全下一行的玩具。
从这时候开始,Claude在开发者社区的口碑就起来了。后来编程类AI请求的市场份额,Anthropic占了60%,遥遥领先。Cursor、Copilot这些AI编程工具的爆发,Claude功不可没。
夏天:GPT-5姗姗来迟
等了很久很久之后,8月7号,GPT-5终于来了。
Sam Altman管它叫"世界上最好的模型"。400K token上下文、多模态深度融合、内置类似o1的推理链。在GDPval评测中首次达到并超越人类专家水平------70.9%的任务被专家认为优于或等于顶尖行业专家的输出。
但说实话,等它出来的时候,Claude 4已经在编程领域站稳了,Gemini 2.5在推理上也很能打,GPT-5的震撼感不如预期。它确实是综合实力最强的模型之一,但不再是"唯一的选择"了。那个"OpenAI发个模型全世界都要跪"的时代,在2025年正式结束了。
秋冬:军备竞赛白热化
下半年的节奏更快,基本上每隔几周就有重量级发布:
- 8月,Claude Opus 4.1发布,编程能力再升一级,SWE-bench得分74.5%。
- 9月 ,Anthropic推出Claude Sonnet 4.5,在编程和Agent方面继续卷。
- 11月 ,两个重磅同月落地。Google发了Gemini 3.0 Pro ,各项评测几乎全部第一,匿名投票得分历史首次突破1500分,Google终于坐回了王座。同月,Anthropic放了Claude Opus 4.5,在编程能力上超过Gemini 3 Pro和GPT-5.1,闭卷软件工程师测试甚至超过所有历史人类考生。
- 年底 ,OpenAI发了GPT-5.2系列,算是对Gemini 3冲击的回应。
到年底的格局变成了:Google、OpenAI、Anthropic三强鼎立,谁也压不死谁,隔几周就换一次榜首。
国产AI:不只是DeepSeek
DeepSeek开年封神之后,国产AI全线加速。
阿里的Qwen系列 持续开源迭代,Qwen 2.5 Coder在编程场景上直接跟闭源模型掰手腕。字节的豆包 从模型到应用全链路铺开,年底日活用户超6亿。月之暗面的Kimi在长文本和Agent方向上越走越深。MiniMax、智谱、百川也都在各自赛道上有进展。
开源生态的变化最明显------中国开源模型在全球流量占比从年初的1.2%飙升到30%以上,不再是硅谷的陪衬了。
AI编程:2025年真正改变了程序员的日常
如果要说2025年AI对普通人最直接的影响,AI编程工具排第一。
GitHub Copilot进化到Agent模式,能理解你的高层需求、自动跨文件写代码、自己调试。Cursor凭借对Claude的深度集成,成了独立开发者的新宠。97%的开发者说自己用过AI编程工具。Copilot的ARR突破1亿美金。
这不是"帮你自动补全括号"那个级别的事了。Claude Opus 4能连续写7小时代码,o3在Codeforces上超过99%的人类程序员。AI编程从"辅助"变成了"协作",甚至在某些场景下变成了"主力"。
技术路线:2025年发生了什么根本性的变化
回头看整年,有几条线特别清晰:
第一,推理模型成了主流。 年初大家还在讨论"推理模型有没有必要",年底推理Token已经占到全行业处理量的50%以上。用户要的不是"生成文本",是"解决问题"。
第二,MoE架构全面普及。 DeepSeek V3、Llama 4、Gemini系列全部采用混合专家架构,用更少的算力跑出更好的效果。"堆参数"的粗暴路径正式退出历史舞台。
第三,多模态从"加分项"变成"入门门槛"。 到年底,你要是出一个只能处理文本的模型,根本没人会认真看你一眼。文本、图像、音频、视频、代码------全都得会。
第四,Agent从PPT变成了产品。 Manus、Operator、Copilot Agent、各种垂直领域的智能体,AI开始真正"动手干活"了。
第五,开源追平闭源。 Llama 4、DeepSeek系列、Qwen系列证明,开源模型在越来越多的场景下不输闭源,甚至更好用。
写在最后
2025年不是某一个模型的故事,是整个行业一起加速的故事。DeepSeek证明了小团队也能撼动巨头,Manus证明了Agent不是画饼,Claude证明了编程AI已经能当半个同事用,Gemini 3.0证明了Google还没死。
如果说2024年大家还在问"AI能干什么",2025年的问题已经变成了"AI还有什么不能干"。
这一年过后,再回头看,你会发现------世界真的不一样了。