高频使用 GPT-5.5 两天后的总结

上周 GPT-5.5 发布后，我基本第一时间上手。周末两天在家高频使用了一轮，从写稿、查资料、改代码、整理表格，到帮我规划一些复杂任务，整体感受是：确实更强了！速度也没有任何降低！

总结下来一句话：这次升级的性质和此前的 5.x 版本都不同。

OpenAI 在 GPT-5.5 的官方使用指南中特别强调了一个新技巧:在提示词末尾加上"完成后请检查是否有事实不确定、逻辑跳跃、遗漏反方观点。"

我实测下来这类自检 prompt 确实很有用。它会主动把确定事实、推断观点和待确认信息分开，减少那种看起来很顺但其实没证据的内容。

GPT-5.0 到 5.4，都是在同一个预训练基础上做后训练迭代。GPT-5.5 则是自 GPT-4.5 以来第一次完整重新预训练，内部代号"Spud"。架构决策、训练数据、以及面向 Agent 自主工作的训练目标，都是从头设计的。

后训练有天花板，能调整模型行为，但突破不了原始预训练的能力上限。新预训练移动的是"重心"本身。

这解释了为什么某些能力的跃升，是 5.0 到 5.4 整个系列加起来都做不到的。

大多数评测盯着编码分数，但长上下文有重要的结构性突破。

基准测试	GPT-5.4	GPT-5.5	变化
MRCR v2（512K--1M token）	36.6%	74.0%	+37 pp
GraphWalks BFS（1M token）	9.4%	45.4%	+36 pp
Terminal-Bench 2.0	75.1%	82.7%	+7.6 pp

这不是量变，1M token 的上下文窗口加上真实可用的长上下文召回能力，意味着一个 Agent 可以在单次会话中容纳整个中型代码库、测试套件和文档，而不需要做截断。

实测对比： 让两个模型对同一个完整代码库做安全审计------GPT-5.5 引用了 14 个文件里的具体方法签名；Claude Opus 4.7 触及上下文上限，输出的是针对子集的、更模糊的结论。这不是能力强弱的问题，是可解决的任务范围不同。

GPT-5.5 领先的方向：

Claude / Gemini 领先的方向：

账面上 API 从 $2.5/$ 15 涨到 $5/$ 30，翻倍。但 GPT-5.5 每次任务消耗的 token 约减少 40%，实际有效成本涨幅约 20%。

另外一个被忽略的点：Batch API 定价是标准价的 50%，也就是 $2.5/$ 15，与 GPT-5.4 标准价完全一样。 对于不需要实时响应的离线任务，价格还是划算的。

OpenAI 在发布前的红队测试中，有人在六小时内找到了一个通用越狱漏洞。与此同时，GPT-5.5 在 OpenAI 准备度框架下的网络安全评级被标记为"高风险"，为此推出了面向安全研究者的受限通道。

这反映的是当下的一个新结构性问题：模型能力的提升速度，已经快于安全防护机制的成熟速度了。