1. 本周概览
本周大模型行业呈现多维度竞争格局,模型调用量榜单出现显著变化,Google Gemini 3 Flash Preview强势登顶,Kimi K2.5爆发式增长。各大厂商密集发布新模型,OpenAI推出GPT-5.3-Codex编码模型,Anthropic发布Claude Opus 4.6,美团推出多模态统一大模型方案STAR,快手可灵AI发布3.0版本,上海AI实验室发布书生Intern-S1-Pro。编程能力榜单中,Kimi K2.5-thinking成为国产编程模型榜首。前沿数学能力榜单出现重大调整,Claude Opus 4.5 (no thinking)成绩暴增跃居前三。
2. 重点关注事件
- OpenAI发布GPT-5.3-Codex编码模型(2.6):融合GPT-5.2推理能力与GPT-5.2-Codex编码性能,运行速度提升25%,支持终端操作与长期任务。该模型曾参与自身训练调试,被定为首个"高"网络安全风险等级。
- Anthropic发布Claude Opus 4.6(2.6):显著提升编码、推理与代理任务能力,首创百万token上下文窗口。Terminal-Bench 2.0等评测领先,GDPval-AA超GPT-5.2达144 Elo分,定价维持5/25每百万token不变。
- 美团推出多模态统一大模型方案STAR(2.4):凭借创新的"堆叠自回归架构 + 任务递进训练"双核心设计,GenEval突破0.91,实现了"理解能力不打折、生成能力达顶尖"的双重突破。
- 快手可灵AI发布3.0版本(2.4):推出视频3.0与Omni模型,支持智能分镜、图生视频+主体参考、多语种对口型、15秒长视频生成。
- 上海AI实验室发布书生Intern-S1-Pro(2.4):核心科学能力实现跃升,高难度综合学科评测稳居AI4S领域国际领先水平,复杂数理逻辑推理能力达奥赛金牌水平,面向真实科研流程的智能体能力位居开源模型第一梯队。
3. 榜单变化
OpenRouter模型调用量排名
- 整体调用量:Google Gemini 3 Flash Preview强势登顶,从上周第2位(580B tokens,14%增长)跃升至本周第1位(791B tokens,36%增长),反超Claude Sonnet 4.5成为榜首;Claude Sonnet 4.5退居次席,从上周第1位(766B tokens,15%增长)降至本周第2位(727B tokens,5%增长),环比调用量绝对值减少39B tokens;Kimi K2.5爆发式增长新入前三,本周以673B tokens和350%的增长率位列第3,而上周未进入前十榜单;Grok Code Fast 1大幅下滑,从上周第3位(477B tokens,12%增长)骤降至本周第8位(336B tokens,下降30%),排名下跌5位;MiniMax M2.1高速增长新入榜,本周以371B tokens和115%的增长率位列第7,上周未在榜单中。
- 模型市占率:MoonshotAI爆发式攀升,从上周203B tokens(3.5%,第7位)暴涨至本周606B tokens(8.8%,第5位),份额增长5.3个百分点,排名上升2位;x-ai大幅下滑,从上周719B tokens(12.3%,第4位)骤降至本周587B tokens(8.6%,第6位),份额减少3.7个百分点;MiniMax强势入榜,本周以323B tokens(4.7%)新进入前十榜单第7位;三大巨头份额齐降,Google保持第1但份额从24%降至23%,Anthropic保持第2但份额从17.1%降至15.4%,OpenAI保持第3但份额从14%降至13.4%;DeepSeek稳中有进,从上周553B tokens(9.4%,第5位)增至本周651B tokens(9.5%,第4位),超越x-ai上升1位。
- 模型吞吐量:gpt-oss-120b速度大幅回落,从上周第2位(836 tok/s)骤降至本周第4位(447 tok/s),速度下降46%;Llama 3.1 8B Instruct性价比跃升,从上周第9位(Cerebras提供,203 tok/s,0.10/M)升至本周第6位(Groq提供,306tok/s,0.05/M),速度提升51%且价格降低50%;两款模型跌出前十,上周第5位的Llama 3.3 70B Instruct(265 tok/s)和第8位的Qwen3 Next 80B(233 tok/s)本周退出榜单;两款模型入榜,Llama 4 Maverick(第8位,181 tok/s)和Mistral Small Creative(第9位,180 tok/s)新进入前十;Gemini 2.5 Flash Lite Preview持续提速,从上周第10位(169 tok/s)升至本周第7位(221 tok/s),速度提升31%。
- 编程调用量:Kimi K2.5爆发式增长登顶,从上周第4位(139B tokens,8.9%)暴涨至本周第1位(463B tokens,25.2%),份额激增16.3个百分点;Grok Code Fast 1大幅下滑,从上周榜首(255B tokens,16.4%)骤降至本周第3位(173B tokens,9.4%),份额减少7个百分点;MiniMax M2.1快速攀升,从上周第6位(115B tokens,7.4%)跃升至本周第2位(226B tokens,12.3%),份额增长4.9个百分点;Claude双模型份额齐降,Claude Sonnet 4.5从第2位(12.3%)降至第5位(7.9%),Claude Opus 4.5从第3位(10.0%)降至第4位(8.7%);GPT-5.2持续收缩,从第8位(61.4B tokens,3.9%)降至第9位(38.7B tokens,2.1%),同时https://www.arcee.ai/发布的400B参数稀疏MoE开源模型Trinity Large Preview (free)新进入前十榜单,排名第7位。
各领域能力榜单
- 编程能力榜单(Code Arena):Kimi K2.5-thinking新晋榜单第5位,仅次于御三家的模型,成为国产编程模型榜首。
- 文生图能力榜单(Artificial Analysis Text to Image Leaderboard):FLUX.2 [dev] Turbo分数超过Nano Banana,二者排名易位,分别排名9、10。
- 理科能力榜单(GPQA LLM Stats):Claude Opus 4.6以91.3%的得分排名第4位,仅次于GPT-5.2 Pro、GPT 5.2和Gemini 3 Pro。
- 前沿数学能力榜单(EPOCH AI FrontierMath):Claude Opus 4.5 (no thinking)成绩暴增跃居前三,从上周五第16位(准确率20.7%,60/290)飙升至本周第3位(38.3%,111/290),准确率提升17.6个百分点;其次是Kimi K2.5 (Fireworks)新进入前十榜单,以27.9%(81/290)排名第10,取代了同系列的Kimi K2 Thinking(21.4%,第15位)。
- GAIA测试集榜单:LR AILab of Lenovo CTO Org发布的Lemon agent登顶首位。
4. 排行榜
| 测评类型 | 第一名 | 第二名 | 第三名 |
|---|---|---|---|
| 模型调用量 | Gemini 3 Flash Preview | Claude Sonnet 4.5 | Kimi K 2.5 |
| 公司市占率 | Anthropic | OpenAI | |
| 模型速度 | gpt-oss-safeguard-20b | Qwen3 32B | gpt-oss-20b |
| 编程模型调用量 | Kimi K 2.5 | MiniMax M2.1 | Grok Code Fast 1 |
各公司按不同能力领域排名汇总
| 测评类型 | 领先公司 |
|---|---|
| 大语言模型 Text Arena | Google、xAI、Anthropic、百度、OpenAI、智谱、阿里巴巴、月之暗面 |
| 编程能力 Code Arena | Anthropic、OpenAI、Google、智谱、MiniMax |
| 编程能力 LiveCodeBench | OpenAI、Anthropic、Google |
| 代码工程任务能力 SWE-benchLite | 基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统 |
| 图像编辑和生成能力 Image Edit Arena | OpenAI、Google、字节、腾讯、Black Forest Labs、Reve |
| 文生图能力 Text-to-Image Arena | OpenAI、Google、Black Forest Labs、腾讯 |
| 图像编辑和生成能力 Image Editing Leaderboard | OpenAI、Google、字节、Black Forest Labs、阿里巴巴、Reve |
| 文生图能力 Text to Image Leaderboard | OpenAI、Google、Black Forest Labs、字节、Fal |
| GPQA | OpenAI、Google、Anthropic、xAI、阿里巴巴 |
| FrontierMath | OpenAI、Google、Anthropic、DeepSeek、月之暗面、xAI |
| Humanity's Last Exam | Google、OpenAI、Anthropic |
| GAIA | LR AILab of Lenovo CTO Org、JoinAI、Nvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、ShawnAgent、ZTE-AICloud |
关注我,第一时间掌握更多AI前沿资讯!