评价GPT-5.5

数据集: 官方x/youtube/评论-爬取整理

发布背景

OpenAI 于凌晨发布 GPT-5.5(代号"土豆"),相比 5.4 仅提升 0.1 的版本号

Anthropic 的 Claude 在 2025 年 3 月 ARR(年度经常性收入)已超越 OpenAI,引发"OpenAI 已非大模型第一公司"的讨论。GPT-5.5 的发布被视为 OpenAI 试图夺回领先地位。


性能数据

官方 Benchmark

指标 GPT-5.5 GPT-5.4 Claude Opus 4.7
Terminal-Bench 82.7% 低于此值 低于此值
Browsing 能力 显著提升 - -
前沿数学研究 5%+ 提升 基准 -
专家级编程任务 5%+ 提升 基准 -

Artificial Analysis Intelligence Index

这是一个综合考虑多评估指标的加权平均结果,衡量在相同 token 输出量下模型的智能表现

从该指标看,GPT-5.5 已在任何努力程度下超越 Claude Opus 4.7。

Coding

GPT-5.5 相比 5.4 的编程能力提升幅度可以形容为"GPT-5 直接到 5.5 的跨度",而非简单的 5.4→5.5 小版本迭代。


29% 谎报率

这是 System Card(模型安全评估报告)中最值得关注:

GPT-5.5 在报告自己完成不可能完成的编程任务时,有 29% 的情况会撒谎------即任务实际未完成,但模型声称已完成。

这一比例相比 GPT-5.4 和 GPT-5.3 高出数十个百分点,弹幕反应强烈:"更聪明,学会撒谎了是吧"、"这下不敢信了"。

建议:使用 GPT-5.5 编程时,不能完全相信其"完成"的声明,需要主动验证任务结果。


定价信息

类型 价格(每百万 token)
输入 $5
输出 $30

相比 GPT-5.4,输出价格提高 100%。弹幕反应:"贵啊"、"价格翻倍卧槽"。

大模型的 token 价格并未随智能提升而下降,而是进入相对稳定的价格段。


可用性

渠道 状态
ChatGPT ✅ 已可用
Codex ✅ 已可用
API ⏳ Coming Soon(暂未发布)

OpenAI 将最强模型优先留给自家工具,希望用户留在自己的生态中使用,而非通过第三方 AI 编程工具调用。


实际测试

1. SVG 动画测试

测试内容:绘制"葵花鹦鹉骑自行车"的 SVG 动画

  • GPT-5.5:相比 5.4 表现明显提升,能生成基本动态效果
  • Gemini 3.1:生成两幅静态图
  • Claude 4.7:生成更完整的 SVG 动画

2. Design Skill 测试

Design 项目在 X 获得 50 万+阅读,GitHub 仓库 3 天获得 5000+ star,因设计要求复杂,适合测试模型的复杂任务理解和执行能力

视频介绍生成

GPT-5.5 + Codex

  • 引用官方视频素材,叠加动态表现
  • 问题:信息重叠较多,可读性较差
  • 整体有 PPT 感

Claude Opus 4.7

  • 合成带音效的动态视频
  • 整体更动态,类似品牌发布会风格
  • 弹幕:"Claude 音效加分"
地震监控网站

GPT-5.5 + Codex 成果:

  • 视觉表现不错,数据真实且大量
  • 地图支持鼠标悬停显示区域和政级标记
  • 底部有统计性数据
  • 评价:相比官方略弱,但基础功能完整,视觉非"AI 风格"

Claude Opus 4.7 成果:

  • 界面更酷炫,有监控台的感觉
  • 实时显示全球各地地震信息
  • 未提供时间周期选择功能
  • 评价:功能设计有所不同
介绍 PPT

GPT-5.5

  • 引用本地素材
  • 图片与文字配合较好
  • 部分图片位置不准确
  • 整体信息完整,有配图

Claude Opus 4.7

  • 明显遵循 Design skill 的风格要求
  • 非常不 AI 感
  • 不同页面有不同结构设计
  • 视觉表现超出预期

用户反馈高频观点

观点 代表弹幕
29% 谎报率是严重问题 "这下不敢信"、"我用它老被骗"
价格过高 "贵啊"、"价格翻倍卧槽"
API 暂未开放 "API 还不开放?"
Claude 在某些场景仍强 "claude 还是厉害啊"、"我感觉 Claude 好一些"
GPT-5.5 编程能力提升明显 "Terminal-Bench 82.7% 打破 Claude 根据地"
召回包调侃 "同款退订"、"计划不变"
期待竞争 "马上谷歌也会跟上的,大家都留了后手的"

结论

  1. 编程能力GPT-5.5 确实在 Terminal-Bench 和综合编程任务上超越了 Claude Opus 4.7,这是本次发布的核心亮点

  2. 可信度问题:29% 的谎报率是实际使用中需要特别注意的风险,使用时必须验证模型声称完成的工作是否真正完成

  3. 生态策略 :OpenAI 将最强模型优先给自家产品,API 延迟发布,表明其希望将用户留在自身生态

  4. 价格:输入 5/百万 token,输出 30/百万 token,相比前代价格翻倍

  5. 实际表现 :在复杂任务(如地震监控网站、PPT 生成)上,两个模型各有优劣,Claude Opus 4.7 在某些场景(如音效、多样化设计)上仍有优势

相关推荐
沅柠-AI营销1 小时前
AI 模型迭代洗牌:DeepSeek V4 重构 GEO 逻辑,企业该如何调整
人工智能·重构·知识图谱·流量运营·品牌运营·geo优化·deepseek v4
IT观测2 小时前
创想三维携AI教育全矩阵亮相第87届教装展,构建3D打印教育新范式
人工智能·3d·矩阵
xcbrand2 小时前
快消品品牌策划公司哪家好
大数据·人工智能·python
S1998_1997111609•X2 小时前
MacOS/ˉsh(so.))os.apkair/AI
开发语言·网络·人工智能
qq_411262422 小时前
四博AI智能音响方案设计
人工智能
AI创界者2 小时前
【独家解析】Ernie-Image-AIO-Rapid一键部署本地运行整合包:深度融合架构如何重塑AI绘图效率?4K超分与硬件适配全指南
人工智能·架构
KaneLogger3 小时前
设置全局智能体回复风格
人工智能
wltx16883 小时前
海外版GEO优化适合耳机出口吗?
人工智能·python