AI 周刊【2026.04.20-04.26】：OpenAI 图像推理突破、模型开始偏科、国产模型5天5款

深小乐2026-04-28 9:08

本周三件事值得聊。OpenAI 发布 GPT Image 2，推理模式让 AI 先"想"再画；GPT-5.5 智能体登顶但编程被 Claude 压制，模型开始"偏科"；国产大模型 5 天密集发布 5 款旗舰。

一、GPT Image 2: AI 画图终于会"思考"了

OpenAI 发布 GPT Image 2，中文文字渲染准确率 99%+，推理模式让 AI 先"想"再画

4 月 21 日，OpenAI 正式发布 GPT Image 2，面向所有 ChatGPT 用户开放。最大突破：中文文字渲染从"一眼假"进化到"基本能用"，准确率达 99% 以上；付费用户可启用 Thinking 推理模式，模型会先推理布局、调用网络搜索、分析素材再生成，一次可产出多张保持一致性的连续图像。全面超越此前标杆 Nano Banana Pro(Gemini 3 Pro Image)

个人点评：

我自己试了，提示词都简简单单，但效果震撼（可以参考我前面的文章）。嗯，很多设计师，可以下岗了。

二、GPT-5.5：智能体登顶，但编程不敌 Claude

OpenAI 发布 GPT-5.5，智能体能力全面领先，但 SWE-Bench 被 Claude Opus 4.7 压制 6 个百分点

4 月 23 日，OpenAI 发布 GPT-5.5，这是自 GPT-4.5 以来首个完全重训的基座模型。核心亮点：Terminal-Bench 2.0 复杂命令行任务准确率 82.7%，领先 Claude Opus 4.7 13 个百分点；GDPval 知识工作任务胜率 84.9%, OSWorld 计算机环境操作准确率 78.7%，智能体能力全面登顶。

但并非全面碾压。在最接近"修复真实 GitHub issue"的 SWE-Bench Pro 测试中，GPT-5.5 得分 58.6%，被 Claude Opus 4.7 的 64.3% 压制；多语言问答（MMMLU）仅 83.2%，远低于 Claude 的 91.5% 和 Gemini 的 92.6%。定价为 30 per M token，是 GPT-5.4 的两倍，但因 token 消耗减少 40%，实际成本接近。

个人点评：

Agent 自主执行有进步，啥时候 Code 能力，能真正追上 Claude 呢？

三、国产大模型集体爆发：5 天 5 款旗舰

月之暗面、阿里、小米、腾讯、DeepSeek 五天内密集发布，国产大模型进入"闪电战"节奏

本周国产大模型迎来史无前例的密集发布潮。4 月 20 日，月之暗面发布 Kimi K2.6，长程编码能力不间断 13 小时、编写 4000+ 行代码；同日阿里发布 Qwen3.6-Max-Preview，Code Arena 编程盲测全球第二。4 月 23 日，小米 MiMo-V2.5-Pro 发布，距上代仅 36 天；同日腾讯发布混元 Hy3 preview，前 OpenAI 核心研究员姚顺雨加盟后首作，三个月完成重建。4 月 24 日，DeepSeek-V4 压轴登场，百万字上下文、全面开源。

个人点评：

本周啥日子，这么热闹。AI 这是要开始加速度了？可以开始左脚踩右脚了？