2025,AI这一年:从“卷参数“到“卷落地“的转折之年

开年炸场:DeepSeek的"斯普特尼克时刻"

2025年的开局,属于DeepSeek,没有争议。

1月20号,DeepSeek R1正式发布,开源。性能逼近OpenAI o1,训练成本不到600万美金------硅谷花的钱是它的几十倍。一周之内登顶140个国家的App Store,日活18天破1500万,增速是ChatGPT的13倍。华尔街直接慌了,英伟达股价跳水,有人管这叫AI的"斯普特尼克时刻"------就是当年苏联发射第一颗卫星,让美国人知道自己不是唯一玩家的那个时刻。

它真正震动行业的不只是性能,而是证明了一件事:你不需要几十亿美金和几万张H100,也能训出顶级模型。强化学习替代传统的监督微调,MoE架构把成本打下来------DeepSeek把"大力出奇迹"的信仰给动摇了。

同一天,月之暗面也发了Kimi K1.5推理模型,技术路径跟R1惊人地相似,但传播度差了十万八千里。这行就是这样,先手优势加上叙事张力,DeepSeek吃掉了所有的关注度。

一季度:推理模型的井喷

DeepSeek炸完之后,各家突然醒过来了,推理模型成了最热的赛道。

OpenAI在1月底放了o3-mini ,首次对免费用户开放推理模型,在STEM领域表现很强,响应速度比o1-mini快了24%。紧接着2月底,发布了GPT-4.5(代号Orion),这是OpenAI最后一个"纯预训练"模型------从此以后,所有新模型都会内置推理能力。Sam Altman自己说的,以后不会再有不会"思考"的GPT了。

Anthropic这边2月24号放了Claude 3.7 Sonnet,号称"第一个混合推理模型"------它同时支持快速回答和深度思考两种模式,你可以选让它想多深。这个设计思路其实挺聪明的,不是所有问题都需要烧算力去推理。

Google 2月初发了Gemini 2.0系列------Flash、Flash-Lite、Pro三个档位一起上。2.0 Flash在发布时就让人眼前一亮,速度快、结果好,一扫之前"Google大模型不行"的印象。2.0 Pro支持调用搜索和执行代码,往Agent方向走了一大步。

春天:Agent元年正式开幕

如果说2025年有一个关键词,那就是Agent。

3月6号,一家叫Monica.im的中国团队发了Manus,号称全球首款通用AI Agent。它能自己规划任务、操作电脑、回邮件、做表格、筛简历、分析股票,还能把结果直接交付给你。不是那种"帮你写个草稿你自己改",是真的替你干活。GAIA测试上直接超了OpenAI的同类产品。

Manus火得很快,4月就拿了7500万美金融资,估值冲到5亿。更戏剧性的是年底被Meta收购了------从校园创业到被巨头收编,剧本写得比电影还精彩。

OpenAI早在1月23号就发了Operator,也是个能在网页上自主执行任务的Agent。但说实话,跟Manus的出圈效应比,差了不少声量。

这一年,Agent从概念变成了产品。AI从"你问它答"进化到"你交代它干",这个转变意义比很多人意识到的要深得多。

四月:Meta搅局 + OpenAI出牌

4月初,Meta扔了一颗炸弹------Llama 4开源,三个版本一起上。Scout版1090亿参数、1000万token上下文(开源最长)、单卡H100就能跑。Maverick版4000亿参数、128个专家模块,多模态原生融合。还有个2万亿参数的Behemoth在训练中。

MoE架构让Llama 4用1/5的参数量就能打到GPT-4o的水平,API价格直接干到地板。有开发者开玩笑说"OpenAI的API账单终于有救了"。

4月16号,OpenAI祭出o3和o4-mini。这俩模型有个里程碑式的突破:首次实现了"看图思考"------你给它一张模糊的白板照片或复杂图表,它能用推理链来分析图像内容。更关键的是,它们能在一个对话里自主调用搜索、Python、图像分析等所有工具,不用你一步步引导。Sam Altman说o3"接近天才水平"。o4-mini在AIME 2025上通过率99.5%,带解释器时100%------比绝大多数人类数学选手强。

五月:Claude 4,编程能力的天花板

5月22号,Anthropic放了Claude Opus 4和Claude Sonnet 4

这两个模型在编程圈子里炸了。Claude Opus 4能连续编程7小时不崩,在SWE-bench上的表现让很多程序员直接把它当成了日常开发工具。它不仅写代码强,更关键的是它"理解"代码------能看懂整个项目的上下文,帮你做架构级别的重构,不是那种只会补全下一行的玩具。

从这时候开始,Claude在开发者社区的口碑就起来了。后来编程类AI请求的市场份额,Anthropic占了60%,遥遥领先。Cursor、Copilot这些AI编程工具的爆发,Claude功不可没。

夏天:GPT-5姗姗来迟

等了很久很久之后,8月7号,GPT-5终于来了

Sam Altman管它叫"世界上最好的模型"。400K token上下文、多模态深度融合、内置类似o1的推理链。在GDPval评测中首次达到并超越人类专家水平------70.9%的任务被专家认为优于或等于顶尖行业专家的输出。

但说实话,等它出来的时候,Claude 4已经在编程领域站稳了,Gemini 2.5在推理上也很能打,GPT-5的震撼感不如预期。它确实是综合实力最强的模型之一,但不再是"唯一的选择"了。那个"OpenAI发个模型全世界都要跪"的时代,在2025年正式结束了。

秋冬:军备竞赛白热化

下半年的节奏更快,基本上每隔几周就有重量级发布:

  • 8月,Claude Opus 4.1发布,编程能力再升一级,SWE-bench得分74.5%。
  • 9月 ,Anthropic推出Claude Sonnet 4.5,在编程和Agent方面继续卷。
  • 11月 ,两个重磅同月落地。Google发了Gemini 3.0 Pro ,各项评测几乎全部第一,匿名投票得分历史首次突破1500分,Google终于坐回了王座。同月,Anthropic放了Claude Opus 4.5,在编程能力上超过Gemini 3 Pro和GPT-5.1,闭卷软件工程师测试甚至超过所有历史人类考生。
  • 年底 ,OpenAI发了GPT-5.2系列,算是对Gemini 3冲击的回应。

到年底的格局变成了:Google、OpenAI、Anthropic三强鼎立,谁也压不死谁,隔几周就换一次榜首。

国产AI:不只是DeepSeek

DeepSeek开年封神之后,国产AI全线加速。

阿里的Qwen系列 持续开源迭代,Qwen 2.5 Coder在编程场景上直接跟闭源模型掰手腕。字节的豆包 从模型到应用全链路铺开,年底日活用户超6亿。月之暗面的Kimi在长文本和Agent方向上越走越深。MiniMax、智谱、百川也都在各自赛道上有进展。

开源生态的变化最明显------中国开源模型在全球流量占比从年初的1.2%飙升到30%以上,不再是硅谷的陪衬了。

AI编程:2025年真正改变了程序员的日常

如果要说2025年AI对普通人最直接的影响,AI编程工具排第一。

GitHub Copilot进化到Agent模式,能理解你的高层需求、自动跨文件写代码、自己调试。Cursor凭借对Claude的深度集成,成了独立开发者的新宠。97%的开发者说自己用过AI编程工具。Copilot的ARR突破1亿美金。

这不是"帮你自动补全括号"那个级别的事了。Claude Opus 4能连续写7小时代码,o3在Codeforces上超过99%的人类程序员。AI编程从"辅助"变成了"协作",甚至在某些场景下变成了"主力"。

技术路线:2025年发生了什么根本性的变化

回头看整年,有几条线特别清晰:

第一,推理模型成了主流。 年初大家还在讨论"推理模型有没有必要",年底推理Token已经占到全行业处理量的50%以上。用户要的不是"生成文本",是"解决问题"。

第二,MoE架构全面普及。 DeepSeek V3、Llama 4、Gemini系列全部采用混合专家架构,用更少的算力跑出更好的效果。"堆参数"的粗暴路径正式退出历史舞台。

第三,多模态从"加分项"变成"入门门槛"。 到年底,你要是出一个只能处理文本的模型,根本没人会认真看你一眼。文本、图像、音频、视频、代码------全都得会。

第四,Agent从PPT变成了产品。 Manus、Operator、Copilot Agent、各种垂直领域的智能体,AI开始真正"动手干活"了。

第五,开源追平闭源。 Llama 4、DeepSeek系列、Qwen系列证明,开源模型在越来越多的场景下不输闭源,甚至更好用。


写在最后

2025年不是某一个模型的故事,是整个行业一起加速的故事。DeepSeek证明了小团队也能撼动巨头,Manus证明了Agent不是画饼,Claude证明了编程AI已经能当半个同事用,Gemini 3.0证明了Google还没死。

如果说2024年大家还在问"AI能干什么",2025年的问题已经变成了"AI还有什么不能干"。

这一年过后,再回头看,你会发现------世界真的不一样了。

相关推荐
DeepModel1 小时前
第14章 注意力机制与Transformer
人工智能·深度学习·transformer
甲枫叶1 小时前
【claude】Claude Code正式引入Git Worktree原生支持:Agent全面实现并行独立工作
java·人工智能·git·python·ai编程
ppppppatrick2 小时前
【深度学习基础篇03】激活函数详解:从生物突触到非线性注入
人工智能·深度学习
Figo_Cheung2 小时前
Figo《量子几何学:从希尔伯特空间到全息时空的统一理论体系》(三)
人工智能·深度学习·几何学
人工智能AI技术2 小时前
Qwen3.5-Plus Agent开发实战:从0到1做自动执行AI助手
人工智能
liliangcsdn3 小时前
基于Saliency Map对LLM进行可解释性分析
人工智能·计算机视觉·目标跟踪
盟接之桥3 小时前
盟接之桥说制造:从客供的外在共生到内在的身心合一
运维·服务器·网络·人工智能·制造
RoyLin3 小时前
你的 nginx 在扼杀 AI 服务——为什么需要重新设计流量层
人工智能·devops