上周大模型生态竞争激烈,GPT-5.2全面领先多项基准测试,Google凭借Gemini系列重夺市占率第一,xAI份额大幅下滑,同时多个新模型和智能体在编程、图像、数学及综合任务中崭露头角。
1. 周重要变化
以下为OpenRouter模型调用量排名变动
整体调用量:
- Grok Code Fast 1 登顶
- Grok 4.1 Fast 跌出前10
- Claude Opus 4.5 从第6升至第4
- GPT-OSS-120B 、Gemini 2.5 Flash Lite 重回前10(第5、第7)
- MiniMax M2 掉出前10
市占率:
- Google 以 23.5% 重回第一(+4%)
- xAI 份额暴跌至 17.3%(-16.6%,两周累计降幅超20%)
- Anthropic、OpenAI、DeepSeek 紧随其后
编程调用量:
- 前二名不变:Grok Code Fast 1 、Claude Sonnet 4.5
- GPT-OSS-120B 从第9跃升至第3
- MiniMax M2 降至第5
- Devstral 2 2512 新晋第9
各类能力榜单更新
| 榜单 | 表现亮点 |
|---|---|
| 大语言模型(Text Arena) | ernie-5.0-preview-1103 新晋第19名(预发布评分) |
| 编程能力(LMArena) | gpt-5.2-high、gpt-5.2 新晋第2、第6名(预发布) |
| 代码工程(SWE-bench BashOnly) | GPT-5.2 (high reasoning) 第3,GPT-5.2 第5 |
| 图像编辑(Artificial Analysis Image Editing Leaderboard) | Seedream 4.5 第2,P-Image-Edit 第7 |
| 文生图(Artificial Analysis Text to Image Leaderboard) | Seedream 4.5 第5,Z-lmageTurbo 第10 |
| 理科能力(LLM Stats GPQA) | GPT-5.2 Pro(93.2%)第1,GPT-5.2(92.4%)第2 |
| 前沿数学(EPOCH AI FrontierMath) | GPT-5.2 以40.3%正确率登顶(首次突破40%) |
| GAIA 榜单 | Su Zero + SQ Pro 登顶,Su Zero + Shuqian Lite 第4 |
2. 周各榜单排名情况
OpenRouter 相关排名
- 调用量前三:Grok Code Fast 1、Claude Sonnet 4.5、Gemini 2.5 Flash
- 公司市占率前三:Google、xAI、Anthropic
- 编程调用量前三:Grok Code Fast 1、Claude Sonnet 4.5、GPT-OSS-120B
按公司划分的多维榜单表现
| 榜单 | 领先公司/机构 |
|---|---|
| Text Arena(大语言模型) | Google、xAI、Anthropic、OpenAI、阿里、百度、月之暗面、智谱、DeepSeek |
| LMArena(编程) | Anthropic、OpenAI、Google、智谱 |
| LiveCodeBench(编程) | Anthropic、Google、OpenAI、阿里、月之暗面 |
| SWE-benchLite(代码工程) | 基于 Claude、Gemini、GPT、Qwen、DeepSeek 的开源系统领先 |
| Image Edit Arena(图像编辑/生成) | Google、字节、Reve、Black Forest Labs |
| Text-to-Image Arena(文生图) | Google、Black Forest Labs、腾讯、字节 |
| Image Editing Leaderboard | Google、字节、Black Forest Labs、Pruna AI、生数科技、OpenAI、阿里 |
| Text to Image Leaderboard | Google、Black Forest Labs、字节、ImagineArt、阿里 |
| GPQA(理科) | OpenAI、Google、xAI、Anthropic、阿里 |
| FrontierMath(前沿数学) | OpenAI、Google、月之暗面、Anthropic、xAI |
| Humanity's Last Exam | Google、OpenAI、Anthropic |
GAIA 榜单代表性智能体系统(基于基础模型开发)
- Suzhou AI Lab & Shuqian Tech(Gemini 3、Claude Sonnet 4.5、GPT5.1)
- Lenovo LR AILab(GPT5、o3、Gemini-3-pro)
- NVIDIA(Nemotron-ToolOrchestrator + GPT-5/Claude/0wen等)
- ZTE-AICloud(ZTE NebulaLLM + Claude/Gemini)
- JoinAI(JoinLLM + GPT4.1/DeepSeek/Gemini)
- 其他:AIP agent、MAI-A Ads、ShawnAgent(集成GPT5/o3/Claude/Gemini)
3. 周重点关注事件
OpenAI 发布 GPT-5.2 系列
- 包含 Instant、Thinking、Pro 三个版本
- 在 GDPval 评测 中超越44个职业的人类专家水平
- 在 GPQA、FrontierMath、SWE-bench 等多项基准刷新纪录
Google 推出 Gemini Deep Research 智能体
- 开源 DeepSearchQA 基准,用于评估网络研究能力
- 在 HLE、DeepSearchQA、BrowseComp 测试中取得 SOTA 结果
Mistral AI 开源 Devstral 2 代码模型系列
- 包括 Devstral 2 (123B) 和 Devstral Small 2 (24B)
- 在 SWE-bench Verified 上达 72.2%
- 成本效率比 Claude Sonnet 高达7倍
关注我,获取更多AI前沿洞察