大模型榜单周报(2026/01/24)

1. 本周概览

本周大模型行业动态频发,美团更新了大规模推理模型LongCat-Flash-Thinking-2601,智谱开源轻量化模型GLM-4.7-Flash,MiniMax发布AI原生工作台。在榜单方面,OpenRouter模型调用量出现显著变化,Claude Opus 4.5调用量大幅下滑,而Claude Sonnet 4.5升至榜首,编程领域竞争激烈,各大公司继续在不同能力维度展开激烈角逐。

2. 重点关注事件

  • 美团于1.15更新大规模推理模型LongCat-Flash-Thinking-2601,该模型拥有5600亿参数,基于创新的MoE架构构建,引入了重思考模式(Heavy Thinking Mode),能够同时启动8路思考并最终总结出更全面、更可靠的结论
  • 智谱于1.20开源30B混合思考模型GLM-4.7-Flash,激活3B参数,提供免费API,性能超越同量级模型,为轻量化部署提供新选择
  • MiniMax于1.20发布Agent 2.0(AI-native Workspace),实现本地云端一体,推出Expert Agents垂直专家系统,具备读文件、写脚本、制作PPT、跑定时任务等功能,定义AI原生工作台概念
  • DeepSeek新模型MODEL1于1.21曝光,代码显示采用全新架构,具体差异体现在KV缓存布局、稀疏性处理和FP8解码方面,在内存优化上有多处创新
  • Anthropic于1.22开源全新「AI宪法」(Claude's Constitution),确立了当不同价值观发生冲突时的权衡顺序:「广泛安全」、「广泛道德」、「遵守Anthropic准则」、「真诚助人」
  • 谷歌DeepMind于1.22发布D4RT(Dynamic 4D Reconstruction and Tracking),用于跨时空4D场景重建和跟踪,采用统一的编码器-解码器Transformer架构,在各类4D重建任务中均优于此前方法

3. 榜单变化

  • OpenRouter整体模型调用量方面,Claude Opus 4.5调用量大幅下滑35%至395B tokens,排名从第一暴跌至第六;Claude Sonnet 4.5升至榜首但增幅仅11%;免费模型MiMo-V2-Flash持续走强,占比增长18%至582B tokens,排名从第三升至第二;Gemini 2.5 Pro异军突起,调用量暴增300%至413B tokens,首次进入前十即位列第五;Grok 4.1 Fast增长13%至282B tokens;Gemini 2.5 Flash Lite调用量陷入停滞,零增长导致排名从第八跌至第十
  • OpenRouter模型市占率方面,Google模型份额跃升至26.0%,增幅达2.8个百分点,持续扩大领先优势;Anthropic份额大幅下滑4.7个百分点至16.7%,虽仍位居第二但与榜首差距明显拉大;OpenAI份额小幅回升0.6个百分点至13.1%;x-ai份额上升1.3个百分点至12.6%,但因增速不及OpenAI导致排名从第3降至第4;Mistral AI份额下降0.3个百分点至3.5%,被Qwen以0.9个百分点的增幅反超,双方排名发生易位
  • OpenRouter编程调用量方面,Claude Opus 4.5占比断崖式下跌,从20.6%骤降至10.6%,降幅达10个百分点,是两周内变化幅度最大的模型,排名从第2位跌至第3位;Grok Code Fast 1持续扩大领先优势,占比从21.6%小幅攀升至22.8%,增幅1.2个百分点,稳居市场第一;免费模型MiMo-V2-Flash异军突起,占比从2.8%飙升至5.5%,增幅2.7个百分点,排名从第8位跃升至第5位;Claude Sonnet 4.5占比显著增加,从7.7%升至14.1%,增幅6.4个百分点,排名从第4位升至第2位
  • 编程能力榜单(Code Arena):gemini-3-flash (thinking-minimal) 上榜,排名第8,超过GPT-5.2
  • 图像编辑能力榜单(Text to Image Arena):flux-2-flex分数追平nano-banana,二者排名易位
  • 文生图能力榜单(Artificial Analysis Text to Image Leaderboard):ImagineArt 1.5 Preview上榜,排名第10
  • GAIA榜单:Shawn Agent更新v3.1,排名第7,得分达89.37%

4. 排行榜

测评类型 第一名 第二名 第三名
模型调用量 Claude Sonnet 4.5 MiMo-V2-Flash(free) Grok Code Fast 1
公司市占率 Google Anthropic OpenAI
编程模型调用量 Grok Code Fast 1 Claude Sonnet 4.5 Claude Opus 4.5

各公司按不同能力领域排名汇总

测评类型 领先公司
大语言模型 Text Arena Google、xAI、Anthropic、百度、OpenAI、智谱、阿里巴巴、月之暗面
编程能力 Code Arena Anthropic、OpenAI、Google、智谱、MiniMax
编程能力 LiveCodeBench OpenAI、Anthropic、Google
代码工程任务能力 SWE-benchLite 基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统
图像编辑和生成能力 Image Edit Arena OpenAI、Google、字节、Black Forest Labs、Reve
文生图能力 Text-to-Image Arena OpenAI、Google、Black Forest Labs、腾讯
图像编辑和生成能力 Image Editing Leaderboard OpenAI、Google、字节、Black Forest Labs、阿里巴巴、Reve
文生图能力 Text to Image Leaderboard OpenAI、Google、Black Forest Labs、字节、ImagineArt
GPQA OpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMath OpenAI、Google、DeepSeek、月之暗面、Anthropic、xAI
Humanity's Last Exam Google、OpenAI、Anthropic
GAIA JoinAI、Nvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、LR AILab of Lenovo CTO Org、ShawnAgent、ZTE-AICloud、LR AILab等

关注我,第一时间掌握更多AI前沿资讯!