
六月初的AI安全领域被一则突发消息搅动。Anthropic旗下尚未正式发布的Claude Oceanus-v1-p模型标识符,于六月三日悄然出现在Claude Console界面中,随后通过非授权API代理渠道流入部分研究人员手中。这一本该处于严格管控状态的受限测试版本,尚未完成正式评估流程便遭遇早期分发失控,迅速引发业界对Anthropic Mythos系列后续产品安全管控能力的广泛质疑。
Mythos Preview奠定的能力基座
要理解这次泄露的分量,需要回溯到两个月前。今年四月,Anthropic在限制性研究计划框架下推出了Claude Mythos Preview,这款面向网络安全界的预览版本展现出令红队评估人员震惊的技术轮廓。根据图灵研究所披露的数据,Mythos红队在已披露的测试用例中实现了超过99%的漏洞恢复率,其Frontier Red Team评估确认,该模型具备识别并利用主流操作系统与Web浏览器零日漏洞的能力。

自Glasswing项目启动以来,参与该计划的合作伙伴累计发现超过一万个高危或严重级别的安全漏洞。这种级别的自动化漏洞挖掘能力,在提升防御效率的同时,也引发了关于大模型安全边界的深层讨论。Oceanus-v1-p正是直接建立在Mythos Preview的技术基础之上,其潜在能力可想而知。
API代理渠道的灰色转售
然而,技术的突破往往伴随着管控的挑战。模型交付给经过验证的红队成员仅数小时后,便有迹象表明,不明身份人员正通过位于中国的API代理服务转售Oceanus-v1-p的访问权限。据悉,该代理将输入定价抬高至每百万token十六美元,输出费用更是达到八十美元,这一价格远超Anthropic标准企业定价层级。

社交媒体上已有用户公开对比不同渠道的定价与TPS限制,侧面印证了非授权访问渠道的活跃程度。这种灰色市场的存在,不仅侵蚀了Anthropic的商业利益,更关键的是破坏了红队测试的封闭性与可控性。对于一款具备零日漏洞利用潜力的模型而言,任何未经审核的第三方接入都意味着不可预测的安全风险。
历史纠葛与信任裂痕
事实上,Anthropic与API代理滥用之间的对抗由来已久。早在2026年初,该公司便公开指控包括DeepSeek、Moonshot AI和MiniMax在内的多家中国人工智能实验室,通过约两万四千个虚假账户,借助代理渠道与Claude模型进行了超过一千六百万次交互。这一前科使得此次Oceanus转售事件更显敏感。尽管尚无证据表明此次泄露与此前指控的实验室存在直接关联,但 Anthropic 显然已将代理渠道视为其模型安全防线的关键薄弱环节。
面对事态升级,Anthropic迅速作出反应。据报道,公司已暂停向更广泛的红队成员开放Oceanus模型访问权限,并启动内部调查。这一举措虽然延缓了评估进度,但在安全优先的考量下显得必要。
Glasswing项目的战略扩展
值得注意的是,就在泄露发生的前一天,Anthropic刚刚宣布将其受限人工智能网络防御计划"Glasswing项目"扩展至约一百五十个新组织,覆盖印度、法国、德国、韩国、澳大利亚等十五个以上国家。与项目初期主要聚焦大型科技公司的定位不同,此次扩容将电力、水务、医疗保健和通信等关键基础设施行业纳入防护范围。

Anthropic方面坦承,针对这些新增合作伙伴组织的网络攻击一旦成功,可能影响超过一亿人的正常生活。将Mythos级别的AI能力引入关键基础设施防护,既是技术赋能的机遇,也是安全责任的加重。Oceanus泄露事件恰好发生在这一战略扩展的节点上,为项目的推进蒙上了一层阴影。
公开发布的门槛与行业反思
对于普通用户和企业而言,Claude Oceanus-v1-p的正式面世恐怕仍需时日。Anthropic已明确表示,在公司开发出"高度可靠的安全措施以防止滥用"之前,Mythos级别的功能以及Oceanus-v1-p都不会被批准向公众发布。更值得关注的是,Anthropic承认业内目前尚不存在满足这一标准的安全措施,这种坦诚在某种意义上比模型本身的能力更令人警醒。
大模型安全从来不是单纯的技术问题,而是涉及供应链管控、访问权限管理、商业利益平衡与全球监管协作的系统性挑战。当AI的能力足以自主发现和利用零日漏洞时,其分发渠道的安全等级必须与之匹配。Oceanus的意外泄露,或许会成为整个行业重新审视受限模型治理框架的转折点。
从Mythos Preview到Oceanus-v1-p,Anthropic正在探索大语言模型在网络安全领域的极限应用。但技术的脚步如果跑在了管控能力前面,再惊艳的能力展示也可能沦为安全隐患。如何在释放AI防御潜能与遏制滥用风险之间找到动态平衡,将是Anthropic以及整个AI产业在接下来必须回答的核心命题。