从Mythos到GPT-5.4-Cyber：AI安全竞赛的“双轨”分化与防御新范式

当Claude Mythos在OpenBSD中挖出27年的"老坑"，OpenAI选择了另一条路：把AI还给防守者，把控制权握在自己手里。

引言

过去一周，AI安全领域上演了一场无声的"双雄会"。

2026年4月7日，Anthropic宣布启动Project Glasswing项目，推出未公开的顶级AI安全模型Claude Mythos Preview，仅向亚马逊、苹果、微软等11家科技巨头开放测试，用于排查产品漏洞并共享成果。这个被Anthropic自己定性为"危险到无法公开"的模型，据称在过去数周内，在每一个主流操作系统和每一个主流网络浏览器中，都发现了此前未知的高危零日漏洞，累计数量达数千个。

一周之后，OpenAI出牌了。2026年4月14日，OpenAI正式发布了GPT-5.4-Cyber------一款专为防御性网络安全工作微调的AI模型，面向"数千名经过验证的安全专业人员"开放，新增了二进制逆向工程能力，支持安全专家在无需源代码的情况下对已编译软件进行分析。

一周之内，两家公司先后出手。这不是一次普通的产品发布------它们传递着同一个信号：AI模型在网络安全领域的能力已经跨过某个临界点。然而，两家公司对"如何释放这种能力"的回答，却走向了截然相反的方向。

一、Claude Mythos：当AI学会"自主猎杀"

1.1 "自主性"的革命

Mythos的核心特征不是"挖洞"，而是自主性。

据Anthropic披露，Mythos Preview的设计与以往任何网络安全AI都不同。它不是为了"辅助"安全团队，而是能够独立工作。给定一个目标和提示，模型会自行阅读代码、形成假设、针对运行环境进行验证测试，并生成完整的漏洞利用方案------无需任何人工介入。

这种能力，据称是模型在代码推理、推理能力和自主性方面的通用改进的"自然溢出"，而非定向训练的结果。Anthropic直言：让模型更擅长修复漏洞的改进，也让模型更擅长利用漏洞。

1.2 "历史级"漏洞的集中发现

Mythos的成果清单令人印象深刻：

漏洞	存在时长	所在系统	技术说明
TCP协议栈崩溃漏洞	27年	OpenBSD（安全强化型操作系统）	仅需发起连接即可让目标机器远程崩溃
RCE漏洞	17年	FreeBSD内核	CVE-2026-4747，模型自主发现并利用
视频解码器漏洞	16年	FFmpeg	问题代码已被自动化测试工具命中过500万次，从未被捕获
多个串联漏洞	---	Linux内核	模型自主串联多个漏洞，构造从普通用户到完全控制权的攻击链
数千个零日漏洞	---	所有主流OS和浏览器	累计发现"数千个"此前未知的高危零日漏洞

数据来源：Anthropic官方披露

在标准化评估基准CyberGym的漏洞复现测试上，Mythos Preview得分为83.1% ，而前代模型Claude Opus 4.6仅为66.6% 。在Firefox JavaScript引擎漏洞利用测试中，Mythos在数百次尝试中成功生成181次 有效利用和29次寄存器控制，而前代模型仅成功2次。

更令人关注的是，Anthropic的工程师在没有正式安全培训的情况下，让Mythos"过夜寻找RCE漏洞"，第二天早上醒来就收到了一个完整可用的漏洞利用。

面对这种能力，Anthropic选择了极度保守的发布策略。

1.3 Project Glasswing：精英联盟路线

2026年4月7日，Anthropic正式启动Project Glasswing，将Claude Mythos Preview仅限11家启动合作伙伴访问，包括AWS、苹果、博通、思科、CrowdStrike、谷歌、摩根大通、Linux基金会、微软、英伟达和Palo Alto Networks。另有约40家关键基础设施组织获得了模型访问权限。Anthropic为此承诺提供1亿美元 的使用额度，并向开源安全组织捐款400万美元。

Anthropic的逻辑是：与其向所有人开放一个危险的工具，不如先圈定一批最有能力、最有信誉的合作伙伴，在可控环境下释放能力，优先加固全球最关键的数字基础设施。

据多家媒体报道，Anthropic目前尚未决定是否以及何时公开发布Mythos，其最终目标是让用户"能够安全地大规模部署Mythos级别的模型"。

二、GPT-5.4-Cyber：另一条路------把AI还给防守者

2.1 "宽松型"网络安全模型

GPT-5.4-Cyber是GPT-5.4的一个专项微调版本，专为防御性网络安全工作设计。它的设计理念与Mythos形成了对比。

OpenAI将这款模型描述为"网络安全宽松型"，其核心特征是降低了合法安全任务的拒绝边界。标准GPT模型会对涉及漏洞研究、利用分析或恶意软件行为的查询设置拦截机制，而GPT-5.4-Cyber则被设计为------在验证用户为合法安全专业人员的前提下------支持这些高级工作流。

这反映了一个深刻的行业痛点：通用AI模型由于"双重用途"风险，常常拒绝回答合法安全研究中的敏感问题。OpenAI在发布文章中直接点出，一些网络安全合作伙伴抱怨早期GPT模型会直接拒绝"双重用途"的安全查询。GPT-5.4-Cyber正是为了解决这个问题而生。

2.2 核心能力：二进制逆向工程

GPT-5.4-Cyber最受关注的新增能力是二进制逆向工程。该功能允许安全专业人员在无需访问源代码的情况下，对已编译软件进行分析，以发现恶意软件、安全漏洞及安全弱点。

这一能力的战略意义在于：现实世界中大量的关键软件------尤其是遗留系统和商业闭源软件------并不提供源代码。传统安全研究员需要依赖昂贵的逆向工程工具和大量的手动分析才能完成这项工作。而GPT-5.4-Cyber相当于把"逆向工程师"的能力直接打包进AI模型，安全团队可以输入编译后的可执行文件，接收针对潜在恶意软件和结构弱点的分析。

2.3 Codex Security：漏洞自动修复闭环

GPT-5.4-Cyber并非孤立存在。它构建在OpenAI已有的安全产品矩阵之上。

Codex Security是OpenAI的安全代码分析平台，于2026年初作为研究预览版发布。据OpenAI披露，自近期更广泛上线以来，Codex Security已协助修复了整个软件生态系统中超过3000个关键及高危漏洞，还有更多中低风险漏洞的修复也依赖该工具。

这意味着GPT-5.4-Cyber与Codex Security形成了一个完整的"发现→分析→修复"闭环：模型识别漏洞，平台生成修复方案，安全团队验证并部署。这不是"AI自动挖洞+自动利用"，而是"AI自动挖洞+自动修复"------防御者的AI，而非攻击者的AI。

OpenAI还通过"Codex for Open Source"为开源项目提供免费安全扫描服务，目前已覆盖超过1000个开源项目。

三、两种路线：谁才是安全的正确打开方式？

3.1 核心差异：能力限制 vs. 访问控制

维度	Claude Mythos (Anthropic)	GPT-5.4-Cyber (OpenAI)
模型定位	通用大模型，安全能力"自然涌现"	专项微调，专为防御性安全工作设计
核心能力	自主挖洞+自主利用（不依赖人工介入）	辅助防御工作（降低工具使用摩擦）
能力边界	极低------可能输出完整漏洞利用代码	宽松但定向------为合法防御任务优化
发布策略	"精英联盟制"，约50家机构封闭访问	"分级验证制"，向数千名安全专家开放
治理理念	限制模型能力本身	通过身份验证管理访问者
合作规模	11家创始伙伴+40家关键基础设施组织	数千名已验证安全从业者+数百支安全团队

数据来源：综合多家媒体报告

3.2 逻辑分歧：谁在制造"恐慌"？

Anthropic的逻辑是：模型太危险了，不能广泛释放。因此，Mythos的访问被严格限制在少量经过严格筛选的合作伙伴范围内，这些机构被赋予先行加固自身系统的优先权。

OpenAI的逻辑则截然不同。它在发布文章中明确表达了三个核心原则：

民主化访问：通过客观标准（如严格的KYC身份验证），让合法防御者尽可能广泛地获得工具，而非依赖人工主观决定谁可以访问。
迭代部署：谨慎地将系统推向市场，持续改进对越狱攻击和对抗性攻击的韧性。
生态投资：通过信任访问管道、专项补助和开源安全计划，持续支持防御者社群。

OpenAI在发布中含蓄但明确地对Anthropic的路线提出了批评。文章写道，"目前使用中的这类防护措施，已足以将安全风险降低至足以支持现有模型广泛部署的程度"------言下之意，过度限制可能反而削弱整体防御能力。

3.3 两种路线的风险权衡

精英联盟路线的问题在于：如果最强的防御工具只掌握在少数人手中，大部分组织的安全能力将更加落后于攻击者。攻击方不遵守任何规则，也不在乎"授权访问"------国家级APT组织和犯罪团伙不会等待Glasswing计划审批。

分级验证路线的问题则在于：如何防止经过验证的身份被冒用、被盗用？ 一旦攻击者通过某种方式获取了已验证身份，宽松模型的能力就会被滥用。OpenAI为此设置了多层次验证机制，最高级别访问甚至可能要求用户放弃"零数据保留"权益，以便OpenAI保持对模型使用行为的可见性。

Anthropic与OpenAI的分歧，本质上是对AI安全治理基本假设的分歧：是应该通过限制模型能力来降低风险，还是应该通过管理模型使用者来控制风险？

四、防御新范式：从"补丁思维"到"AI原生安全"

GPT-5.4-Cyber与Mythos的出现，共同标志着AI安全领域进入了一个新阶段。

4.1 传统防御逻辑已经过时

安全行业长期遵循"补丁星期二"式的被动防御逻辑：发现漏洞→评估影响→排期修复→部署补丁，整个过程通常以周甚至月为单位。

但当Mythos这样的模型能在几小时内将一个公开漏洞武器化并投入实战，当"从漏洞披露到可用攻击工具出现"的时间窗口从2018年的771天压缩至今天的不足4小时，传统的补丁节奏已经毫无意义。

4.2 AI时代的防御逻辑重构

OpenAI此次发布展示了一条可能的路径：

工具层面：将安全模型从"通用AI"中抽离出来，针对防御场景专项微调，提供二进制逆向工程等专业能力。
流程层面：通过Codex Security构建"发现→分析→修复"的自动化闭环，将安全左移到开发阶段。
治理层面：放弃"一刀切"的模型能力限制，转向基于身份的精细访问控制，让防御者先于攻击者获得能力。

Cloud Security Alliance在最新简报中给出了一个直接而尖锐的判断："防守方的补丁周期、风险模型和检测系统，都是为人类速度的威胁而设计的。它们并非为平均漏洞利用时间不足20小时的环境而构建。"

4.3 基准测试信号：能力跃迁正在进行

OpenAI披露的CTF（夺旗赛）基准测试数据显示了能力跃迁的路径：2025年8月GPT-5得分为27%，至2025年11月GPT-5.1-Codex-Max已提升至76%。Mythos Preview在CyberGym基准测试中的83.1%得分进一步验证了这一趋势。

这两组数据的共同含义是："能否发现此前人类未能发现的漏洞"正在成为一个可量化的新基准。未来的模型发布周期、安全评估标准和高风险能力的界定方式，都将围绕网络安全这个维度发生重组。

五、结语

GPT-5.4-Cyber与Mythos的相继问世，标志着AI安全竞赛已经从"谁更聪明"进入了"谁更负责任"的新阶段。

两家公司选择了不同的答案：Anthropic用联盟和封闭，优先加固最关键的数字化基石；OpenAI用分层验证和规模化开放，试图让更多防御者获得能力优势。

这两条路线没有绝对的对错。但它们共同指向一个无法回避的现实：网络安全行业已经到了必须"代际重构"的时刻。

真正的分水岭，不在于你的安全团队用了多少工具，而在于------当AI驱动的攻击以小时为单位发起时，你的防御体系，是以分钟为单位响应，还是以天为单位迟钝。