高频使用 GPT-5.5 两天后的总结

上周 GPT-5.5 发布后,我基本第一时间上手。周末两天在家高频使用了一轮,从写稿、查资料、改代码、整理表格,到帮我规划一些复杂任务,整体感受是:确实更强了!速度也没有任何降低!

总结下来一句话:这次升级的性质和此前的 5.x 版本都不同。

一、新使用技巧:要让它自检

OpenAI 在 GPT-5.5 的官方使用指南中特别强调了一个新技巧:在提示词末尾加上"完成后请检查是否有事实不确定、逻辑跳跃、遗漏反方观点。"

我实测下来这类自检 prompt 确实很有用。它会主动把确定事实、推断观点和待确认信息分开,减少那种看起来很顺但其实没证据的内容。

二、换了一个底座

GPT-5.0 到 5.4,都是在同一个预训练基础上做后训练迭代。GPT-5.5 则是自 GPT-4.5 以来第一次完整重新预训练,内部代号"Spud"。架构决策、训练数据、以及面向 Agent 自主工作的训练目标,都是从头设计的。

后训练有天花板,能调整模型行为,但突破不了原始预训练的能力上限。新预训练移动的是"重心"本身。

这解释了为什么某些能力的跃升,是 5.0 到 5.4 整个系列加起来都做不到的。

三、长上下文才是这次最被低估的变化

大多数评测盯着编码分数,但长上下文有重要的结构性突破。

基准测试 GPT-5.4 GPT-5.5 变化
MRCR v2(512K--1M token) 36.6% 74.0% +37 pp
GraphWalks BFS(1M token) 9.4% 45.4% +36 pp
Terminal-Bench 2.0 75.1% 82.7% +7.6 pp

这不是量变,1M token 的上下文窗口加上真实可用的长上下文召回能力,意味着一个 Agent 可以在单次会话中容纳整个中型代码库、测试套件和文档,而不需要做截断。

实测对比: 让两个模型对同一个完整代码库做安全审计------GPT-5.5 引用了 14 个文件里的具体方法签名;Claude Opus 4.7 触及上下文上限,输出的是针对子集的、更模糊的结论。这不是能力强弱的问题,是可解决的任务范围不同。

四、GPT-5.5 不是全面碾压,有明确的弱项

GPT-5.5 领先的方向:

  • Terminal-Bench 2.0(82.7% vs Claude 69.4%)

  • 长上下文检索 MRCR v2(74.0% vs Claude 32.2%)

  • 计算机操作 OSWorld-Verified(78.7% vs Claude 78.0%)

  • 高难度数学 FrontierMath Tier 4(35.4% vs Claude 22.9%)

Claude / Gemini 领先的方向:

  • SWE-bench Pro 代码任务(Claude 64.3% vs GPT-5.5 58.6%)

  • MCP Atlas 多工具编排(Claude 79.1% vs GPT-5.5 75.3%)

  • HLE 学术推理无工具(Claude 46.9% vs GPT-5.5 41.4%)

  • GPQA Diamond PhD 级问题(Gemini 3.1 Pro 94.3% 领先)

五、价格翻倍,但实际涨幅没那么吓人

账面上 API 从 2.5/15 涨到 5/30,翻倍。但 GPT-5.5 每次任务消耗的 token 约减少 40%,实际有效成本涨幅约 20%。

另外一个被忽略的点:Batch API 定价是标准价的 50%,也就是 2.5/15,与 GPT-5.4 标准价完全一样。 对于不需要实时响应的离线任务,价格还是划算的。

六、一个值得关注的趋势

OpenAI 在发布前的红队测试中,有人在六小时内找到了一个通用越狱漏洞。与此同时,GPT-5.5 在 OpenAI 准备度框架下的网络安全评级被标记为"高风险",为此推出了面向安全研究者的受限通道。

这反映的是当下的一个新结构性问题:模型能力的提升速度,已经快于安全防护机制的成熟速度了。

相关推荐
Bruce_Liuxiaowei1 小时前
Prompt注入_我的AI编码助手被策反了
人工智能·ai·prompt·提示词·智能体
米小虾1 小时前
AI Agent 上下文管理实战:让你的智能体不再"失忆"
人工智能·agent
冬奇Lab3 小时前
Agent 系列(17):Harness Engineering——给自主 Agent 装上安全护栏
人工智能·llm·agent
Samooyou4 小时前
RAG项目案例--02在线检索&过滤流水线
人工智能·python·ai·全文检索·检索
Solo社区4 小时前
不做通用AI助手,先做好一个垂直Agent
agent·ai助手·独立开发者
j_xxx404_6 小时前
MySQL表操作硬核解析:从 CREATE TABLE 到磁盘文件、ALTER TABLE 与 DDL 风险
运维·服务器·数据库·c++·mysql·adb·ai
周易宅7 小时前
Hermes Agent 内部/后端命令速查表
ai·agent·hermes
大模型真好玩7 小时前
智能体从入门到精通:6个必学GitHub开源项目
人工智能·agent·deepseek
Jackeyzhe7 小时前
让 3 个 AI 一起写公众号:一篇 Hermes 多 Agent 实操
ai
阿里云云原生8 小时前
AI Agent 资源利用率瓶颈如何破?AI 任务调度 + Sandbox 实现动态休眠与唤醒
agent