大模型榜单周报(2025/12/08—2025/12/12)

上周大模型生态竞争激烈,GPT-5.2全面领先多项基准测试,Google凭借Gemini系列重夺市占率第一,xAI份额大幅下滑,同时多个新模型和智能体在编程、图像、数学及综合任务中崭露头角。


1. 周重要变化

以下为OpenRouter模型调用量排名变动

整体调用量:

  • Grok Code Fast 1 登顶
  • Grok 4.1 Fast 跌出前10
  • Claude Opus 4.5 从第6升至第4
  • GPT-OSS-120BGemini 2.5 Flash Lite 重回前10(第5、第7)
  • MiniMax M2 掉出前10

市占率:

  • Google23.5% 重回第一(+4%)
  • xAI 份额暴跌至 17.3%(-16.6%,两周累计降幅超20%)
  • Anthropic、OpenAI、DeepSeek 紧随其后

编程调用量:

  • 前二名不变:Grok Code Fast 1Claude Sonnet 4.5
  • GPT-OSS-120B 从第9跃升至第3
  • MiniMax M2 降至第5
  • Devstral 2 2512 新晋第9

各类能力榜单更新

榜单 表现亮点
大语言模型(Text Arena) ernie-5.0-preview-1103 新晋第19名(预发布评分)
编程能力(LMArena) gpt-5.2-high、gpt-5.2 新晋第2、第6名(预发布)
代码工程(SWE-bench BashOnly) GPT-5.2 (high reasoning) 第3,GPT-5.2 第5
图像编辑(Artificial Analysis Image Editing Leaderboard) Seedream 4.5 第2,P-Image-Edit 第7
文生图(Artificial Analysis Text to Image Leaderboard) Seedream 4.5 第5,Z-lmageTurbo 第10
理科能力(LLM Stats GPQA) GPT-5.2 Pro(93.2%)第1,GPT-5.2(92.4%)第2
前沿数学(EPOCH AI FrontierMath) GPT-5.2 以40.3%正确率登顶(首次突破40%)
GAIA 榜单 Su Zero + SQ Pro 登顶,Su Zero + Shuqian Lite 第4

2. 周各榜单排名情况

OpenRouter 相关排名

  • 调用量前三:Grok Code Fast 1、Claude Sonnet 4.5、Gemini 2.5 Flash
  • 公司市占率前三:Google、xAI、Anthropic
  • 编程调用量前三:Grok Code Fast 1、Claude Sonnet 4.5、GPT-OSS-120B

按公司划分的多维榜单表现

榜单 领先公司/机构
Text Arena(大语言模型) Google、xAI、Anthropic、OpenAI、阿里、百度、月之暗面、智谱、DeepSeek
LMArena(编程) Anthropic、OpenAI、Google、智谱
LiveCodeBench(编程) Anthropic、Google、OpenAI、阿里、月之暗面
SWE-benchLite(代码工程) 基于 Claude、Gemini、GPT、Qwen、DeepSeek 的开源系统领先
Image Edit Arena(图像编辑/生成) Google、字节、Reve、Black Forest Labs
Text-to-Image Arena(文生图) Google、Black Forest Labs、腾讯、字节
Image Editing Leaderboard Google、字节、Black Forest Labs、Pruna AI、生数科技、OpenAI、阿里
Text to Image Leaderboard Google、Black Forest Labs、字节、ImagineArt、阿里
GPQA(理科) OpenAI、Google、xAI、Anthropic、阿里
FrontierMath(前沿数学) OpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last Exam Google、OpenAI、Anthropic

GAIA 榜单代表性智能体系统(基于基础模型开发)

  • Suzhou AI Lab & Shuqian Tech(Gemini 3、Claude Sonnet 4.5、GPT5.1)
  • Lenovo LR AILab(GPT5、o3、Gemini-3-pro)
  • NVIDIA(Nemotron-ToolOrchestrator + GPT-5/Claude/0wen等)
  • ZTE-AICloud(ZTE NebulaLLM + Claude/Gemini)
  • JoinAI(JoinLLM + GPT4.1/DeepSeek/Gemini)
  • 其他:AIP agent、MAI-A Ads、ShawnAgent(集成GPT5/o3/Claude/Gemini)

3. 周重点关注事件

OpenAI 发布 GPT-5.2 系列

  • 包含 Instant、Thinking、Pro 三个版本
  • GDPval 评测 中超越44个职业的人类专家水平
  • GPQA、FrontierMath、SWE-bench 等多项基准刷新纪录

Google 推出 Gemini Deep Research 智能体

  • 开源 DeepSearchQA 基准,用于评估网络研究能力
  • HLE、DeepSearchQA、BrowseComp 测试中取得 SOTA 结果

Mistral AI 开源 Devstral 2 代码模型系列

  • 包括 Devstral 2 (123B)Devstral Small 2 (24B)
  • SWE-bench Verified 上达 72.2%
  • 成本效率比 Claude Sonnet 高达7倍

关注我,获取更多AI前沿洞察