35天,成了AI 模型的斩杀线

上个月你刚花20美元订阅了ChatGPT Plus,转头这个月朋友圈就被「Claude秒杀一切」刷屏,再过一个月可能又换成「Gemini吊打一切」。

看着每月的账单,你难免开始怀疑人生:这AI会员,开不完,真的开不完?

这并非你的错觉,知名大模型竞技场LMArena.ai分析了自2023年年中以来的模型排名榜单,撕开大模型行业最残酷的一面:

排名第一的模型平均只能保持约35天的领先地位,通常情况下会在5个月内跌出前五名,在7个月内跌出前十名。

而曾经一战封神的榜首模型OpenAI o1目前排在第56位,Claude 3 Opus更是跌到了第139位。

虽然LMArena.ai的这份榜单本身可能存在注水空间,但这种剧烈洗牌依然反映了AI模型过气速度之快,35天正在成为顶级AI模型的「斩杀线」。

亿级投流,换不来AI用户的「回头率」

过去两年,你一定有看到过互联网上流传的这张梗图。

去年年初还是ChatGPT独领风骚,随后DeepSeek、Claude轮番坐庄,如今Gemini又异军突起。无论2025还是2026年,影响用户选择模型最核心的因素依旧是性能至上。

用户的选择从来纯粹,哪款模型好用、顺手,便会坚定不移地投向其怀抱,不得不承认的是,现在的AI用户,从一开始就没有忠诚可言。

比如Sora 2刚发布时被吹捧为短视频的降维打击,5天内下载量破百万,但a16z合伙人Olivia Moore抛出的数据却显示,用户的30天留存率仅1%,60天直接归零。

如果把视野转回国内,大模型战火叙事同样残酷:AI应用月投流规模动辄千万甚至十亿级,但除了尝到初期的流量甜头,用户留存率同样惨不忍睹。

而这种「始乱终弃」的现象绕不开因AI热潮催生的「FOMO」心理------大量所谓的AI游客只是为了跟上潮流、探索新鲜工具,但在体验过后转身离开。

深究根源,多数AI产品至今未能搭建起留住用户的闭环。

在过去的SaaS行业,「因X而来,因Y而留」是奉为圭臬的增长逻辑。就像有人最初用Canva做社交海报,但后来却被品牌素材包、模板库和团队协作功能绑住,成为长期用户。亦或者很多人第一次点开微信视频号,就是因为朋友圈、群聊里的一次顺手转发。

内容本身未必惊艳,但它被包裹在熟人关系之中。你可以不关心视频讲了什么,但很难对谁转了这条、谁在下面留言视而不见。点赞除了给创作者,也是为了维持关系的连接。

但这套逻辑在多数AI产品身上彻底失灵。

最典型的就是Sora 2,即便能生成真假难辨的视频,但若没有原生社区支撑用户分享、互动、收获反馈,它终究只是个孤立工具------没除了极少数专业人士,大多数普通用户往往缺乏长期使用的需求。

除此之外,重度用户的使用逻辑也在发生变化。

英伟达CEO黄仁勋就曾在公开场合分享自己的AI使用秘籍:从不依赖单一模型,而是将同一个问题同时抛给多个AI,让它们互相参考、交叉验证,以此提升回答质量与可信度。

这背后的逻辑不难理解:当下没有哪个模型能赢家通吃,不同模型各有优势。时至今日,ChatGPT已不再是AI唯一入口,用Claude写长文本、Gemini写代码、多模型协作取长补短才是常态。

尤为关键的是,巨头们早已手握成熟的生态闭环,只需将AI能力无缝嵌入其中,便能坐享生态红利。

Google手握一整套已经被验证过二十年的入口体系,能够将Gemini能够无缝嵌入YouTube、Workspace办公套件,更深度绑定Chrome、地图等核心流量入口,同时开放API拉拢海量开发者。

这种润物细无声的渠道分发,能够让Gemini轻松收割海量的普通用户与企业客户,也让ChatGPT用户反复摇摆。

面对用户使用意图薄弱、迁移成本近乎为零的困境,OpenAI为代表的初创厂商一方面不断加筑功能防线:绑定生态厂商合作,推出AI Office、AI浏览器、AI群聊等产品。

用Sam Altman的话说,这是为了发挥AI最大生产力,一切都值得用AI重做一遍,但换个角度看,这也是入口焦虑下的被动选择。

另一方面,OpenAI也在C端加码押注「个性化记忆」与情商------允许用户让模型跨会话记住写作风格、专业术语等偏好,还能手动编辑记忆库;针对心理咨询等场景优化语气,本质上就是希望通过个性化功能和「情感绑定」来抬高用户迁移门槛。

但这些煞费苦心的防御招式,短时间终究还是难以逆转用户流失的大趋势。当产品端的突破变得举步维艰,于是也有许多厂商将目光投向了更「省时省力」的赛道------在衡量行业性能地位的榜单上动起了歪脑筋。

「我可以随时换,我也应该随时换」

前文提到的35天斩杀线,核心是参考LMArena反映的行业趋势,但需要指出的是,即便是这份被视作相对权威的评测榜单,本身也暗藏不少猫腻。

Meta此前被曝出的刷榜行为,直接扯下了这份权威榜单的遮羞布。

发布Llama 4前,Meta私下测试了27个变体版本,却只将分数最高的」特供版「公之于众,靠着这套玩法,Llama 4一度霸榜。但当面向公众的正式版发布后,排名瞬间从第2名暴跌至第32名,滤镜破碎一览无余。

榜单的评测机制本身也存在不少问题,其理论上是这么运作的:用户输入提示,比较两个AI回应,然后选出更好的一个。实际情况却是:随机网民匆匆扫一眼,用两秒钟点击他们感觉还不错的选项。

Surge AI在《LMArena is a cancer on AI》一文中曾指出,竞技场中52%的对决判定存在错误,大众投票更偏爱回答冗长、排版华丽甚至带表情包的「显眼包」。

很多时候,AI只要自信地胡说八道,就能轻松击败诚实却枯燥的对手。

当刷榜作弊成为AI行业的潜规则,用户对模型的信任也在不断被透支。再加上模型们隔三差五出现的「降智」更新,用户对「榜一大哥」的祛魅,显然也只是时间问题。

而开源与低价的崛起,则进一步冲击了行业格局。

微软基于内部数据的研究显示,DeepSeek R1极大推动了全球大多数地区的AI普及,在白俄罗斯拿下56%的份额,古巴49%、俄罗斯43%,即便是埃塞俄比亚和津巴布韦,份额也分别达到18%和17%。

图片来自金融时报

原因并不复杂,甚至可以说相当朴素:价格屠夫。

对于绝大多数人来说,免费模型已经覆盖了大多数日常需求,用户就会很自然地进入另一种心态:我可以随时换,我也应该随时换。对于开发者而言,即便OpenAI等巨头多次大幅降价,其每Token收费依旧遥遥领先于DeepSeek。

此外,开发者还基于Qwen、DeepSeek等开源模型,针对教育、医疗等细分场景做轻量化微调,诞生了一批「小而美」的垂直模型。它们虽在通用榜单分数不高,但特定场景表现远超闭源巨头,进一步瓦解了头部模型的话语权。

在这样的背景下,那些卡在中间地带的AI玩家反而最为尴尬:既不够强,也不够便宜,却还寄希望于刷榜、讲故事维持存在感。在「35天生死线」面前,他们几乎没有回旋空间。

等待他们的结局,便只有迟早被斩杀。

原文链接:35天,成了AI 模型的斩杀线-虎嗅网

相关推荐
AngelPP9 分钟前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年13 分钟前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼27 分钟前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS35 分钟前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区2 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈2 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang2 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx
颜酱4 小时前
单调栈:从模板到实战
javascript·后端·算法
shengjk14 小时前
NanoClaw 深度剖析:一个"AI 原生"架构的个人助手是如何运转的?
人工智能