大模型榜单周报（2025/12/08—2025/12/12）

KAI智习2025-12-16 18:57

上周大模型生态竞争激烈，GPT-5.2全面领先多项基准测试，Google凭借Gemini系列重夺市占率第一，xAI份额大幅下滑，同时多个新模型和智能体在编程、图像、数学及综合任务中崭露头角。

1. 周重要变化

以下为OpenRouter模型调用量排名变动

整体调用量：

Grok Code Fast 1 登顶
Grok 4.1 Fast 跌出前10
Claude Opus 4.5 从第6升至第4
GPT-OSS-120B 、Gemini 2.5 Flash Lite 重回前10（第5、第7）
MiniMax M2 掉出前10

市占率：

Google 以 23.5% 重回第一（+4%）
xAI 份额暴跌至 17.3%（-16.6%，两周累计降幅超20%）
Anthropic、OpenAI、DeepSeek 紧随其后

编程调用量：

前二名不变：Grok Code Fast 1 、Claude Sonnet 4.5
GPT-OSS-120B 从第9跃升至第3
MiniMax M2 降至第5
Devstral 2 2512 新晋第9

各类能力榜单更新

榜单	表现亮点
大语言模型（Text Arena）	ernie-5.0-preview-1103 新晋第19名（预发布评分）
编程能力（LMArena）	gpt-5.2-high、gpt-5.2 新晋第2、第6名（预发布）
代码工程（SWE-bench BashOnly）	GPT-5.2 (high reasoning) 第3，GPT-5.2 第5
图像编辑（Artificial Analysis Image Editing Leaderboard）	Seedream 4.5 第2，P-Image-Edit 第7
文生图（Artificial Analysis Text to Image Leaderboard）	Seedream 4.5 第5，Z-lmageTurbo 第10
理科能力（LLM Stats GPQA）	GPT-5.2 Pro（93.2%）第1，GPT-5.2（92.4%）第2
前沿数学（EPOCH AI FrontierMath）	GPT-5.2 以40.3%正确率登顶（首次突破40%）
GAIA 榜单	Su Zero + SQ Pro 登顶，Su Zero + Shuqian Lite 第4

2. 周各榜单排名情况

OpenRouter 相关排名

调用量前三：Grok Code Fast 1、Claude Sonnet 4.5、Gemini 2.5 Flash
公司市占率前三：Google、xAI、Anthropic
编程调用量前三：Grok Code Fast 1、Claude Sonnet 4.5、GPT-OSS-120B

按公司划分的多维榜单表现

榜单	领先公司/机构
Text Arena（大语言模型）	Google、xAI、Anthropic、OpenAI、阿里、百度、月之暗面、智谱、DeepSeek
LMArena（编程）	Anthropic、OpenAI、Google、智谱
LiveCodeBench（编程）	Anthropic、Google、OpenAI、阿里、月之暗面
SWE-benchLite（代码工程）	基于 Claude、Gemini、GPT、Qwen、DeepSeek 的开源系统领先
Image Edit Arena（图像编辑/生成）	Google、字节、Reve、Black Forest Labs
Text-to-Image Arena（文生图）	Google、Black Forest Labs、腾讯、字节
Image Editing Leaderboard	Google、字节、Black Forest Labs、Pruna AI、生数科技、OpenAI、阿里
Text to Image Leaderboard	Google、Black Forest Labs、字节、ImagineArt、阿里
GPQA（理科）	OpenAI、Google、xAI、Anthropic、阿里
FrontierMath（前沿数学）	OpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last Exam	Google、OpenAI、Anthropic

GAIA 榜单代表性智能体系统（基于基础模型开发）

Suzhou AI Lab & Shuqian Tech（Gemini 3、Claude Sonnet 4.5、GPT5.1）
Lenovo LR AILab（GPT5、o3、Gemini-3-pro）
NVIDIA（Nemotron-ToolOrchestrator + GPT-5/Claude/0wen等）
ZTE-AICloud（ZTE NebulaLLM + Claude/Gemini）
JoinAI（JoinLLM + GPT4.1/DeepSeek/Gemini）
其他：AIP agent、MAI-A Ads、ShawnAgent（集成GPT5/o3/Claude/Gemini）

3. 周重点关注事件

OpenAI 发布 GPT-5.2 系列

包含 Instant、Thinking、Pro 三个版本
在 GDPval 评测 中超越44个职业的人类专家水平
在 GPQA、FrontierMath、SWE-bench 等多项基准刷新纪录

Google 推出 Gemini Deep Research 智能体

开源 DeepSearchQA 基准，用于评估网络研究能力
在 HLE、DeepSearchQA、BrowseComp 测试中取得 SOTA 结果

Mistral AI 开源 Devstral 2 代码模型系列

包括 Devstral 2 (123B) 和 Devstral Small 2 (24B)
在 SWE-bench Verified 上达 72.2%
成本效率比 Claude Sonnet 高达7倍

关注我，获取更多AI前沿洞察

上一篇：FPGA中同步与异步复位

下一篇：【强化学习实验】- 策略梯度算法

热门推荐

012026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 022026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？03AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 04GitHub 镜像站点 05AI科技热点日报 | 2026年07月01日 062026 年 AI 大模型 & AI 编程工具实战全总结 072026 AI 编程工具选型横评：Cursor / Claude Code / Trae / Copilot 到底选谁（建议收藏·避坑版）08【AI】2026 年具身智能模型和世界模型总结 092026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 10Claude Code、Codex、Cursor三分天下：2026年AI编程Agent生态全景剖析