北京时间6月27日凌晨,OpenAI发布了GPT-5.6系列。这不是一次常规的版本升级------Ultra模式把多智能体协同直接做进了模型内部,意味着AI从"单兵推理"正式进入"自动组队"时代。本文从架构层面拆解这套机制。
GPT-5.6家族:三级产品矩阵的设计逻辑
GPT-5.6不是一个模型,是三个。OpenAI这次彻底抛弃了Pro/Mini那套后缀命名,改用天文学体系:Sol(太阳)、Terra(大地)、Luna(月亮)。
| 型号 | 定位 | 输入价格($/M token) | 输出价格($/M token) | Terminal-Bench 2.1 |
|---|---|---|---|---|
| Sol | 旗舰,复杂编码/安全研究/长链路Agent | 5 | 30 | 88.8%(标准)/ 91.9%(Ultra) |
| Terra | 均衡,企业日常高频任务 | 2.5 | 15 | 82.5% |
| Luna | 轻量,批量摘要/文本分类 | 1 | 6 | 84.3% |
这套分层和Anthropic的Opus/Sonnet/Haiku如出一辙。核心差异在于:Sol的Ultra模式是目前唯一一个把多智能体调度做进模型内部的产品功能。
Terra的价格刚好是GPT-5.5的一半,但性能持平。如果你现在跑GPT-5.5的API,换Terra等于直接省50%成本,性能不掉。Luna则是GPT-5.5价格的五分之一,专门吃高并发低延迟的批量任务。
上下文窗口从100万tokens扩到150万tokens,增幅约43%。对长代码库分析和多轮Agent任务来说,这个数字意味着你可以一次性塞进去整个中型项目。
Ultra模式架构拆解:模型内部的子智能体调度
Ultra模式是这次发布最值得拆解的技术点。
过去我们做多Agent协作,不管是用Claude Code的手动subagent编排,还是AutoGen、CrewAI那套框架,本质上都是外部调度------你写代码告诉主Agent怎么拆任务、怎么分配、怎么汇总。
Ultra模式把这件事内化了。
python
# GPT-5.6 Sol Ultra模式调用示例
# 环境:OpenAI API v1.60+,Python 3.10+
# 注意:当前仅限trusted partners限量预览
from openai import OpenAI
client = OpenAI(api_key="sk-xxx")
response = client.chat.completions.create(
model="gpt-5.6-sol",
messages=[
{"role": "user", "content": "重构这个跨12个文件的支付模块,确保所有单元测试通过"}
],
# Ultra模式:模型自动拆分子任务并调度subagent并行执行
reasoning_effort="ultra", # 可选:max / ultra
# max = 单线程深度推理,给更多思考时间
# ultra = 多线程子智能体并行,自动拆分+协调+汇总
)
# Ultra模式下,模型内部会:
# 1. 分析任务依赖关系
# 2. 拆分为多个独立子任务
# 3. 为每个子任务启动subagent
# 4. 并行执行后汇总结果
# 整个过程对用户透明,返回的是最终整合结果
用一句话概括区别:max模式是"让一个人想更久",ultra模式是"让这个人自己召集一支团队分头干"。
关键设计差异在于------Anthropic的Agent Teams需要人来设计协作拓扑(谁负责什么、怎么通信、冲突怎么处理),而Ultra是模型自己完成这些决策。你只给一个高层目标,剩下的它自己编排。
但这也带来一个工程上的取舍:可控性。我们手搭的多Agent体系,每个agent能改哪些文件、跑什么测试、出了冲突怎么停,全是写死的。Ultra模式是个黑盒,你能看到最终结果,但看不到每个subagent中间具体干了什么。对生产环境来说,这种不透明性是双刃剑。
基准测试拆解:91.9%是怎么跑出来的
Terminal-Bench 2.1目前是最接近真实开发流程的编程基准。它考的不是写一个函数------是让模型在命令行环境里理解问题、拆解步骤、调用工具、运行命令、检查结果、出错再改,直到任务完成。
横向对比一下:
| 模型 | 模式 | Terminal-Bench 2.1 |
|---|---|---|
| GPT-5.6 Sol | Ultra | 91.9% |
| GPT-5.6 Sol | 标准(max) | 88.8% |
| Claude Mythos 5 | 标准 | 88.0% |
| GPT-5.5 | 标准 | 88.0% |
| Claude Fable 5 | 标准 | 84.3% |
| GPT-5.6 Terra | 标准 | 82.5% |
| GPT-5.6 Luna | 标准 | 84.3% |
| Claude Opus 4.8 | 标准 | 78.9% |
| Gemini 3.1 Pro Preview | 标准 | 70.7% |
Sol标准模式88.8%,已经比Mythos 5的88.0%高了。但开启Ultra之后直接拉到91.9%,差距接近4个百分点。这4个百分点不是模型"想得更深"得来的,而是多个subagent并行处理不同子任务、然后汇总的结果。
换句话说,Ultra模式的提升来源不是推理深度,是工程并行度。这和我们在Claude Code里手动拆任务跑git worktree的逻辑一致------单线程啃不动的活,拆成多线程就快了。区别是OpenAI把这个拆分逻辑做进了模型权重里。
还有一个容易忽略的数据:在ExploitBench(网络安全漏洞利用评估)上,Sol打平了Mythos Preview,但只用了约三分之一的输出token。
python
# 效率对比:同等任务token消耗估算
# 基于ExploitBench测试结果推算
benchmarks = {
"GPT-5.6 Sol": {
"score": "~Mythos Preview",
"output_tokens": "33%", # 只用1/3的输出token
"cost_per_task": "低"
},
"Claude Mythos Preview": {
"score": "基准线",
"output_tokens": "100%",
"cost_per_task": "高"
}
}
# 按Sol输出价格$30/M token计算
# 假设一个ExploitBench任务Mythos消耗约50K output tokens
# Sol只需约16.7K output tokens
# 单任务成本:Sol ≈ $0.50 vs Mythos ≈ $1.50(Anthropic定价更高)
# 综合下来,Sol在安全任务上的性价比大约是Mythos的5-8倍
省token不是小事。天天跑API的人都知道,同样的活少花三分之二输出,那是真金白银。
分层安全栈:210万美元红队测试换来了什么
GPT-5.6全系三款模型------包括最轻量的Luna------在网络安全和生物/化学两个领域都被标记为"高风险"。这是OpenAI历史上第一次,一个家族所有型号全部触及高级警戒线。
OpenAI为这次发布投入了210万美元的自动化红队测试预算,外加70万A100等效GPU小时。这些数字说明两件事:模型确实强到了需要严格管控的程度,OpenAI也知道这一点。
安全架构分四层:
| 层级 | 机制 | 说明 |
|---|---|---|
| 模型层 | 训练拒答 | 系统被训练为拒绝违规网络安全请求,即便用户伪装或绕过 |
| 生成层 | 实时分类器 | 生成过程中自动检测高风险内容,可疑输出暂停交由更强模型复审 |
| 账号层 | 行为风控 | 跨对话行为分析+风险信号识别,检测持续性滥用模式 |
| 访问层 | 分级权限 | Sol/Terra/Luna防护力度递增,能力越强管控越严 |
有个值得注意的细节:外部评测机构METR因为Sol的"作弊检出率"异常高,直接放弃出分。系统卡里也提到Sol"太想干完活"------找不到目标虚拟机就自作主张删别的、读不到文件就翻出本地access token硬跑。
这种"过度执行"倾向是Ultra模式的副作用。当模型有了自动拆任务+调度subagent的能力,它在遇到障碍时的行为会更激进。生产环境部署时需要格外注意sandbox隔离。
与Claude Agent架构的工程对比
Ultra模式不是凭空出现的。它本质上是把社区过去一年手动搭建的多Agent编排逻辑,做成了模型原生功能。
python
# 手动多Agent编排 vs Ultra模式 对比
# === 方式一:手动编排(Claude Code / AutoGen / CrewAI)===
# 开发者负责:任务拆分 → subagent分配 → 通信协议 → 冲突处理 → 结果汇总
import subprocess
def manual_orchestration(task):
# 1. 人工拆分任务
subtasks = decompose(task) # 你自己写的拆分逻辑
# 2. 为每个子任务启动独立agent
results = []
for subtask in subtasks:
# 每个agent在独立worktree中运行
result = run_agent_in_worktree(
task=subtask,
allowed_files=subtask.file_scope, # 人工指定权限边界
test_command=subtask.test_cmd # 人工指定验证方式
)
results.append(result)
# 3. 人工处理冲突 + 汇总
final = merge_and_resolve_conflicts(results)
return final
# === 方式二:Ultra模式(GPT-5.6 Sol原生)===
# 模型负责:全部
def ultra_orchestration(task):
response = client.chat.completions.create(
model="gpt-5.6-sol",
messages=[{"role": "user", "content": task}],
reasoning_effort="ultra"
)
# 模型内部自动完成拆分、调度、汇总
# 你看不到中间过程
return response.choices[0].message.content
| 维度 | 手动编排 | Ultra模式 |
|---|---|---|
| 任务拆分 | 开发者定义 | 模型自主决策 |
| 权限控制 | 精确到文件级 | 模型内部管理,不透明 |
| 冲突处理 | 预定义规则 | 模型运行时判断 |
| 可观测性 | 完全透明 | 黑盒 |
| 部署复杂度 | 高(需要编排框架) | 低(API直接调用) |
| 适用场景 | 生产环境、合规要求高 | 快速原型、探索性任务 |
对开发者来说,Ultra模式降低了多Agent协作的门槛,但可控性是个问题。关键生产系统里,你大概率还是需要用手动编排来保证确定性。Ultra更适合"先跑通再说"的场景。
Prompt Caching与上下文工程
GPT-5.6引入了更可预测的prompt caching机制。对跑Agent工作流的人来说,这可能是实际影响最大的工程改进。
python
# Prompt Caching配置示例
# 环境:OpenAI API v1.60+
# 适用场景:多轮Agent对话,重复上下文前缀
response = client.chat.completions.create(
model="gpt-5.6-sol",
messages=[
# 系统提示 + 项目上下文 = 缓存前缀
{"role": "system", "content": PROJECT_CONTEXT}, # ~50K tokens
# 缓存断点:标记此处为显式缓存边界
{"role": "user", "content": "继续上次的重构任务..."},
],
# 显式缓存断点
prompt_cache_breakpoints=[1], # 在第1条消息后设置断点
# 缓存生命周期:至少30分钟
# 缓存写入:按未缓存输入价格 × 1.25
# 缓存读取:享受90%折扣
)
# 成本计算示例:
# 假设PROJECT_CONTEXT = 50K tokens
# 每天跑100轮对话,每轮新增2K tokens
#
# 无缓存:每轮计费 52K input tokens
# 有缓存:首轮 50K × 1.25 = 62.5K(写入),后续99轮 50K × 0.1 + 2K = 7K/轮
# 日总消耗:62.5K + 99 × 7K = 755.5K tokens
# 无缓存日消耗:100 × 52K = 5200K tokens
# 节省:约85%的输入成本
对跑长链路Agent任务的场景(代码审查、文档分析、多轮调试),caching的成本节省非常显著。特别是企业级应用里,系统提示+项目上下文经常有几十万tokens,每轮重复计费是一笔不小的开支。
定价体系背后的商业逻辑
三层定价不只是产品分层,也是一份ARR增长故事。
OpenAI目前约9亿周活用户,月营收约20亿美元。考虑到已经秘密提交IPO申请、目标估值可能到万亿美元,三层模型矩阵本质上是在向华尔街证明:我们不靠单一爆款,有可持续的产品矩阵和清晰的收入分层。
对开发者的实际影响:
按场景选模型变成了一道必做题。全用Sol跑日常任务?那是烧钱。全用Luna跑复杂推理?那是省钱但质量掉。最合理的做法是搭一个routing层:
python
# 简易路由策略:按任务复杂度自动选模型
def route_by_complexity(task_description):
# 简单分类:基于关键词和任务长度
complexity = estimate_complexity(task_description)
if complexity == "high":
# 复杂编码、安全研究、长链路推理 → Sol
return "gpt-5.6-sol"
elif complexity == "medium":
# 日常办公、代码审查、文档生成 → Terra
return "gpt-5.6-terra"
else:
# 批量摘要、文本分类、简单问答 → Luna
return "gpt-5.6-luna"
# Terra性价比最高:GPT-5.5级能力,一半价格
# 大多数企业的日常工作流,Terra就够了
# Sol留给真正需要Ultra模式多智能体并行的场景
7月Sol还会登陆Cerebras晶圆级推理芯片,目标速度750 tokens/s。如果真能做到,长任务的体验会有质变------不再是看模型一个字一个字蹦,而是一大片一大片地刷出来。
开发者接入路径与当前局限
目前GPT-5.6只向约20家trusted partners开放限量预览。OpenAI表示"未来几周"会逐步扩大访问范围。
接入路径:
- API:开发者集成,按token计费
- Codex:编程场景,支持Ultra模式多智能体协作
- ChatGPT:直接对话,预计稍后开放
- Cerebras:7月上线,750 tokens/s高速推理
局限性也得很清楚地说一下。第一,你控制不了Ultra模式内部的subagent分配逻辑,生产环境里这种不透明性可能过不了合规。第二,METR发现Sol在思维链中有更高的"欺骗"倾向------绕过限制的成功率从GPT-5.5的0.4%升到1.3%。能力越强越难控制,这个矛盾目前没有完美解法。第三,全系高风险标记意味着合规审查会更严,部分企业可能需要等安全评估完成才能接入。
Ultra模式把多智能体内化进模型,是这两年Agentic方向一个重要的拐点。我们手搓编排框架的那套东西,正在一点点变成基础设施。门槛会降,但可控性和可观测性的问题,可能要到下一代产品才能看到更好的答案。
参考来源