2025，AI这一年：从“卷参数“到“卷落地“的转折之年

开年炸场：DeepSeek的"斯普特尼克时刻"

2025年的开局，属于DeepSeek，没有争议。

1月20号，DeepSeek R1正式发布，开源。性能逼近OpenAI o1，训练成本不到600万美金------硅谷花的钱是它的几十倍。一周之内登顶140个国家的App Store，日活18天破1500万，增速是ChatGPT的13倍。华尔街直接慌了，英伟达股价跳水，有人管这叫AI的"斯普特尼克时刻"------就是当年苏联发射第一颗卫星，让美国人知道自己不是唯一玩家的那个时刻。

它真正震动行业的不只是性能，而是证明了一件事：你不需要几十亿美金和几万张H100，也能训出顶级模型。强化学习替代传统的监督微调，MoE架构把成本打下来------DeepSeek把"大力出奇迹"的信仰给动摇了。

同一天，月之暗面也发了Kimi K1.5推理模型，技术路径跟R1惊人地相似，但传播度差了十万八千里。这行就是这样，先手优势加上叙事张力，DeepSeek吃掉了所有的关注度。

一季度：推理模型的井喷

DeepSeek炸完之后，各家突然醒过来了，推理模型成了最热的赛道。

OpenAI在1月底放了o3-mini ，首次对免费用户开放推理模型，在STEM领域表现很强，响应速度比o1-mini快了24%。紧接着2月底，发布了GPT-4.5（代号Orion），这是OpenAI最后一个"纯预训练"模型------从此以后，所有新模型都会内置推理能力。Sam Altman自己说的，以后不会再有不会"思考"的GPT了。

Anthropic这边2月24号放了Claude 3.7 Sonnet，号称"第一个混合推理模型"------它同时支持快速回答和深度思考两种模式，你可以选让它想多深。这个设计思路其实挺聪明的，不是所有问题都需要烧算力去推理。

Google 2月初发了Gemini 2.0系列------Flash、Flash-Lite、Pro三个档位一起上。2.0 Flash在发布时就让人眼前一亮，速度快、结果好，一扫之前"Google大模型不行"的印象。2.0 Pro支持调用搜索和执行代码，往Agent方向走了一大步。

春天：Agent元年正式开幕

如果说2025年有一个关键词，那就是Agent。

3月6号，一家叫Monica.im的中国团队发了Manus，号称全球首款通用AI Agent。它能自己规划任务、操作电脑、回邮件、做表格、筛简历、分析股票，还能把结果直接交付给你。不是那种"帮你写个草稿你自己改"，是真的替你干活。GAIA测试上直接超了OpenAI的同类产品。

Manus火得很快，4月就拿了7500万美金融资，估值冲到5亿。更戏剧性的是年底被Meta收购了------从校园创业到被巨头收编，剧本写得比电影还精彩。

OpenAI早在1月23号就发了Operator，也是个能在网页上自主执行任务的Agent。但说实话，跟Manus的出圈效应比，差了不少声量。

这一年，Agent从概念变成了产品。AI从"你问它答"进化到"你交代它干"，这个转变意义比很多人意识到的要深得多。

四月：Meta搅局 + OpenAI出牌

4月初，Meta扔了一颗炸弹------Llama 4开源，三个版本一起上。Scout版1090亿参数、1000万token上下文（开源最长）、单卡H100就能跑。Maverick版4000亿参数、128个专家模块，多模态原生融合。还有个2万亿参数的Behemoth在训练中。

MoE架构让Llama 4用1/5的参数量就能打到GPT-4o的水平，API价格直接干到地板。有开发者开玩笑说"OpenAI的API账单终于有救了"。

4月16号，OpenAI祭出o3和o4-mini。这俩模型有个里程碑式的突破：首次实现了"看图思考"------你给它一张模糊的白板照片或复杂图表，它能用推理链来分析图像内容。更关键的是，它们能在一个对话里自主调用搜索、Python、图像分析等所有工具，不用你一步步引导。Sam Altman说o3"接近天才水平"。o4-mini在AIME 2025上通过率99.5%，带解释器时100%------比绝大多数人类数学选手强。

五月：Claude 4，编程能力的天花板

5月22号，Anthropic放了Claude Opus 4和Claude Sonnet 4。

这两个模型在编程圈子里炸了。Claude Opus 4能连续编程7小时不崩，在SWE-bench上的表现让很多程序员直接把它当成了日常开发工具。它不仅写代码强，更关键的是它"理解"代码------能看懂整个项目的上下文，帮你做架构级别的重构，不是那种只会补全下一行的玩具。

从这时候开始，Claude在开发者社区的口碑就起来了。后来编程类AI请求的市场份额，Anthropic占了60%，遥遥领先。Cursor、Copilot这些AI编程工具的爆发，Claude功不可没。

夏天：GPT-5姗姗来迟

等了很久很久之后，8月7号，GPT-5终于来了。

Sam Altman管它叫"世界上最好的模型"。400K token上下文、多模态深度融合、内置类似o1的推理链。在GDPval评测中首次达到并超越人类专家水平------70.9%的任务被专家认为优于或等于顶尖行业专家的输出。

但说实话，等它出来的时候，Claude 4已经在编程领域站稳了，Gemini 2.5在推理上也很能打，GPT-5的震撼感不如预期。它确实是综合实力最强的模型之一，但不再是"唯一的选择"了。那个"OpenAI发个模型全世界都要跪"的时代，在2025年正式结束了。

秋冬：军备竞赛白热化

下半年的节奏更快，基本上每隔几周就有重量级发布：

8月，Claude Opus 4.1发布，编程能力再升一级，SWE-bench得分74.5%。
9月，Anthropic推出Claude Sonnet 4.5，在编程和Agent方面继续卷。
11月 ，两个重磅同月落地。Google发了Gemini 3.0 Pro ，各项评测几乎全部第一，匿名投票得分历史首次突破1500分，Google终于坐回了王座。同月，Anthropic放了Claude Opus 4.5，在编程能力上超过Gemini 3 Pro和GPT-5.1，闭卷软件工程师测试甚至超过所有历史人类考生。
年底，OpenAI发了GPT-5.2系列，算是对Gemini 3冲击的回应。

到年底的格局变成了：Google、OpenAI、Anthropic三强鼎立，谁也压不死谁，隔几周就换一次榜首。

国产AI：不只是DeepSeek

DeepSeek开年封神之后，国产AI全线加速。

阿里的Qwen系列 持续开源迭代，Qwen 2.5 Coder在编程场景上直接跟闭源模型掰手腕。字节的豆包从模型到应用全链路铺开，年底日活用户超6亿。月之暗面的Kimi在长文本和Agent方向上越走越深。MiniMax、智谱、百川也都在各自赛道上有进展。

开源生态的变化最明显------中国开源模型在全球流量占比从年初的1.2%飙升到30%以上，不再是硅谷的陪衬了。

AI编程：2025年真正改变了程序员的日常

如果要说2025年AI对普通人最直接的影响，AI编程工具排第一。

GitHub Copilot进化到Agent模式，能理解你的高层需求、自动跨文件写代码、自己调试。Cursor凭借对Claude的深度集成，成了独立开发者的新宠。97%的开发者说自己用过AI编程工具。Copilot的ARR突破1亿美金。

这不是"帮你自动补全括号"那个级别的事了。Claude Opus 4能连续写7小时代码，o3在Codeforces上超过99%的人类程序员。AI编程从"辅助"变成了"协作"，甚至在某些场景下变成了"主力"。

技术路线：2025年发生了什么根本性的变化

回头看整年，有几条线特别清晰：

第一，推理模型成了主流。 年初大家还在讨论"推理模型有没有必要"，年底推理Token已经占到全行业处理量的50%以上。用户要的不是"生成文本"，是"解决问题"。

第二，MoE架构全面普及。 DeepSeek V3、Llama 4、Gemini系列全部采用混合专家架构，用更少的算力跑出更好的效果。"堆参数"的粗暴路径正式退出历史舞台。

第三，多模态从"加分项"变成"入门门槛"。 到年底，你要是出一个只能处理文本的模型，根本没人会认真看你一眼。文本、图像、音频、视频、代码------全都得会。

第四，Agent从PPT变成了产品。 Manus、Operator、Copilot Agent、各种垂直领域的智能体，AI开始真正"动手干活"了。

第五，开源追平闭源。 Llama 4、DeepSeek系列、Qwen系列证明，开源模型在越来越多的场景下不输闭源，甚至更好用。

写在最后

2025年不是某一个模型的故事，是整个行业一起加速的故事。DeepSeek证明了小团队也能撼动巨头，Manus证明了Agent不是画饼，Claude证明了编程AI已经能当半个同事用，Gemini 3.0证明了Google还没死。

如果说2024年大家还在问"AI能干什么"，2025年的问题已经变成了"AI还有什么不能干"。

这一年过后，再回头看，你会发现------世界真的不一样了。