AI 周刊【2026.04.20-04.26】:OpenAI 图像推理突破、模型开始偏科、国产模型5天5款

本周三件事值得聊。OpenAI 发布 GPT Image 2,推理模式让 AI 先"想"再画;GPT-5.5 智能体登顶但编程被 Claude 压制,模型开始"偏科";国产大模型 5 天密集发布 5 款旗舰。


一、GPT Image 2: AI 画图终于会"思考"了

OpenAI 发布 GPT Image 2,中文文字渲染准确率 99%+,推理模式让 AI 先"想"再画

4 月 21 日,OpenAI 正式发布 GPT Image 2,面向所有 ChatGPT 用户开放。最大突破:中文文字渲染从"一眼假"进化到"基本能用",准确率达 99% 以上;付费用户可启用 Thinking 推理模式,模型会先推理布局、调用网络搜索、分析素材再生成,一次可产出多张保持一致性的连续图像。全面超越此前标杆 Nano Banana Pro(Gemini 3 Pro Image)

个人点评:

我自己试了,提示词都简简单单,但效果震撼(可以参考我前面的文章)。嗯,很多设计师,可以下岗了。


二、GPT-5.5:智能体登顶,但编程不敌 Claude

OpenAI 发布 GPT-5.5,智能体能力全面领先,但 SWE-Bench 被 Claude Opus 4.7 压制 6 个百分点

4 月 23 日,OpenAI 发布 GPT-5.5,这是自 GPT-4.5 以来首个完全重训的基座模型。核心亮点:Terminal-Bench 2.0 复杂命令行任务准确率 82.7%,领先 Claude Opus 4.7 13 个百分点;GDPval 知识工作任务胜率 84.9%, OSWorld 计算机环境操作准确率 78.7%,智能体能力全面登顶。

但并非全面碾压。在最接近"修复真实 GitHub issue"的 SWE-Bench Pro 测试中,GPT-5.5 得分 58.6%,被 Claude Opus 4.7 的 64.3% 压制;多语言问答(MMMLU)仅 83.2%,远低于 Claude 的 91.5% 和 Gemini 的 92.6%。定价为 30 per M token,是 GPT-5.4 的两倍,但因 token 消耗减少 40%,实际成本接近。

个人点评:

Agent 自主执行有进步,啥时候 Code 能力,能真正追上 Claude 呢?


三、国产大模型集体爆发:5 天 5 款旗舰

月之暗面、阿里、小米、腾讯、DeepSeek 五天内密集发布,国产大模型进入"闪电战"节奏

本周国产大模型迎来史无前例的密集发布潮。4 月 20 日,月之暗面发布 Kimi K2.6,长程编码能力不间断 13 小时、编写 4000+ 行代码;同日阿里发布 Qwen3.6-Max-Preview,Code Arena 编程盲测全球第二。4 月 23 日,小米 MiMo-V2.5-Pro 发布,距上代仅 36 天;同日腾讯发布混元 Hy3 preview,前 OpenAI 核心研究员姚顺雨加盟后首作,三个月完成重建。4 月 24 日,DeepSeek-V4 压轴登场,百万字上下文、全面开源。

个人点评:

本周啥日子,这么热闹。AI 这是要开始加速度了?可以开始左脚踩右脚了?

相关推荐
阿杰学AI2 小时前
AI核心知识144—大语言模型之 红队(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·红队·红队测试
weixin_446260852 小时前
从零到精通大型语言模型(LLM)应用的开发路线图
人工智能·语言模型·自然语言处理
池佳齐2 小时前
论云原生环境下的AI系统架构设计
人工智能·云原生·系统架构
数智工坊2 小时前
【DAB-DETR论文阅读】:动态锚框作为更优查询,彻底解决DETR训练收敛慢难题
网络·论文阅读·人工智能·深度学习·cnn
Front_Yue2 小时前
基于MindSpore的ResNet50模型中药炮制饮片质量判断实战教程
人工智能·mindspore
qq_411262422 小时前
四博 AI 音箱方案:从“能对话”到“听得远、打断快、可接客户系统”的 AIoT 语音平台
人工智能·智能音箱
Championship.23.242 小时前
2026年AI辅助STM32 IoT实战:从串口到云平台全指南
人工智能·stm32·物联网
woai33642 小时前
AI通识-大模型API
人工智能
GIS数据转换器2 小时前
延凡分布式光伏集中监控平台
人工智能·分布式·数据挖掘·数据分析·无人机·智慧城市