1. 本周概览
本周大模型行业动态频发,美团更新了大规模推理模型LongCat-Flash-Thinking-2601,智谱开源轻量化模型GLM-4.7-Flash,MiniMax发布AI原生工作台。在榜单方面,OpenRouter模型调用量出现显著变化,Claude Opus 4.5调用量大幅下滑,而Claude Sonnet 4.5升至榜首,编程领域竞争激烈,各大公司继续在不同能力维度展开激烈角逐。
2. 重点关注事件
- 美团于1.15更新大规模推理模型LongCat-Flash-Thinking-2601,该模型拥有5600亿参数,基于创新的MoE架构构建,引入了重思考模式(Heavy Thinking Mode),能够同时启动8路思考并最终总结出更全面、更可靠的结论
- 智谱于1.20开源30B混合思考模型GLM-4.7-Flash,激活3B参数,提供免费API,性能超越同量级模型,为轻量化部署提供新选择
- MiniMax于1.20发布Agent 2.0(AI-native Workspace),实现本地云端一体,推出Expert Agents垂直专家系统,具备读文件、写脚本、制作PPT、跑定时任务等功能,定义AI原生工作台概念
- DeepSeek新模型MODEL1于1.21曝光,代码显示采用全新架构,具体差异体现在KV缓存布局、稀疏性处理和FP8解码方面,在内存优化上有多处创新
- Anthropic于1.22开源全新「AI宪法」(Claude's Constitution),确立了当不同价值观发生冲突时的权衡顺序:「广泛安全」、「广泛道德」、「遵守Anthropic准则」、「真诚助人」
- 谷歌DeepMind于1.22发布D4RT(Dynamic 4D Reconstruction and Tracking),用于跨时空4D场景重建和跟踪,采用统一的编码器-解码器Transformer架构,在各类4D重建任务中均优于此前方法
3. 榜单变化
- OpenRouter整体模型调用量方面,Claude Opus 4.5调用量大幅下滑35%至395B tokens,排名从第一暴跌至第六;Claude Sonnet 4.5升至榜首但增幅仅11%;免费模型MiMo-V2-Flash持续走强,占比增长18%至582B tokens,排名从第三升至第二;Gemini 2.5 Pro异军突起,调用量暴增300%至413B tokens,首次进入前十即位列第五;Grok 4.1 Fast增长13%至282B tokens;Gemini 2.5 Flash Lite调用量陷入停滞,零增长导致排名从第八跌至第十
- OpenRouter模型市占率方面,Google模型份额跃升至26.0%,增幅达2.8个百分点,持续扩大领先优势;Anthropic份额大幅下滑4.7个百分点至16.7%,虽仍位居第二但与榜首差距明显拉大;OpenAI份额小幅回升0.6个百分点至13.1%;x-ai份额上升1.3个百分点至12.6%,但因增速不及OpenAI导致排名从第3降至第4;Mistral AI份额下降0.3个百分点至3.5%,被Qwen以0.9个百分点的增幅反超,双方排名发生易位
- OpenRouter编程调用量方面,Claude Opus 4.5占比断崖式下跌,从20.6%骤降至10.6%,降幅达10个百分点,是两周内变化幅度最大的模型,排名从第2位跌至第3位;Grok Code Fast 1持续扩大领先优势,占比从21.6%小幅攀升至22.8%,增幅1.2个百分点,稳居市场第一;免费模型MiMo-V2-Flash异军突起,占比从2.8%飙升至5.5%,增幅2.7个百分点,排名从第8位跃升至第5位;Claude Sonnet 4.5占比显著增加,从7.7%升至14.1%,增幅6.4个百分点,排名从第4位升至第2位
- 编程能力榜单(Code Arena):gemini-3-flash (thinking-minimal) 上榜,排名第8,超过GPT-5.2
- 图像编辑能力榜单(Text to Image Arena):flux-2-flex分数追平nano-banana,二者排名易位
- 文生图能力榜单(Artificial Analysis Text to Image Leaderboard):ImagineArt 1.5 Preview上榜,排名第10
- GAIA榜单:Shawn Agent更新v3.1,排名第7,得分达89.37%
4. 排行榜
| 测评类型 | 第一名 | 第二名 | 第三名 |
|---|---|---|---|
| 模型调用量 | Claude Sonnet 4.5 | MiMo-V2-Flash(free) | Grok Code Fast 1 |
| 公司市占率 | Anthropic | OpenAI | |
| 编程模型调用量 | Grok Code Fast 1 | Claude Sonnet 4.5 | Claude Opus 4.5 |
各公司按不同能力领域排名汇总
| 测评类型 | 领先公司 |
|---|---|
| 大语言模型 Text Arena | Google、xAI、Anthropic、百度、OpenAI、智谱、阿里巴巴、月之暗面 |
| 编程能力 Code Arena | Anthropic、OpenAI、Google、智谱、MiniMax |
| 编程能力 LiveCodeBench | OpenAI、Anthropic、Google |
| 代码工程任务能力 SWE-benchLite | 基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统 |
| 图像编辑和生成能力 Image Edit Arena | OpenAI、Google、字节、Black Forest Labs、Reve |
| 文生图能力 Text-to-Image Arena | OpenAI、Google、Black Forest Labs、腾讯 |
| 图像编辑和生成能力 Image Editing Leaderboard | OpenAI、Google、字节、Black Forest Labs、阿里巴巴、Reve |
| 文生图能力 Text to Image Leaderboard | OpenAI、Google、Black Forest Labs、字节、ImagineArt |
| GPQA | OpenAI、Google、xAI、Anthropic、阿里巴巴 |
| FrontierMath | OpenAI、Google、DeepSeek、月之暗面、Anthropic、xAI |
| Humanity's Last Exam | Google、OpenAI、Anthropic |
| GAIA | JoinAI、Nvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、LR AILab of Lenovo CTO Org、ShawnAgent、ZTE-AICloud、LR AILab等 |
关注我,第一时间掌握更多AI前沿资讯!