Claude Mythos 发布,强到刚出道就被雪藏?

2026年4月7日,Anthropic发布了一份长达244页的系统卡片,正式揭开了其历史上最强模型------Claude Mythos Preview的神秘面纱。

然而,与以往不同,这款在各项测试中刷新纪录的模型并未向大众开放。Anthropic决定将其关在笼子里,仅在受控环境下运行。和其他 AI 的太蠢不同,Mythos 被关起来的原因是它太聪明了。

性能评测的断层领先

根据技术文档显示,Claude Mythos在软件工程、逻辑推理和多模态理解等领域全面碾压了前代旗舰Opus 4.6。

在衡量模型解决真实世界软件修复能力的SWE-bench Verified测试中,Mythos拿到了93.9%的高分,相比Opus 4.6提升了13%以上。在更严苛、无数据泄露可能的Pro版本中,它依然保持了77.8%的成绩。数学能力上,它在2026年美国数学奥林匹克(USAMO)中取得了97.6%的准确率,这种逻辑稳定性说明它已经能够处理极长链条的复杂推理。

被雪藏的理由:廉价且高效的攻击力

Mythos在网络安全领域的破坏力是其无法公开的主因。测试显示,该模型在发现和利用软件漏洞上的水平,已经超过了除顶级专家外的绝大多数人类。

举个例子,Mythos在以安全性著称的OpenBSD系统中,挖掘出了一个隐藏长达27年的高危漏洞。更夸张的是,通过自动化脚手架运行模型的总成本约为2万美元,而发现具体那个严重漏洞的单次运行成本竟然不到50美元。也就是说过去依赖稀缺专家的漏洞挖掘工作,现在已经可以被大规模复制和量化。

官方还说了,Anthropic内部一些没有接受过正规安全培训的工程师,曾让Mythos Preview夜间去查找远程代码执行漏洞,第二天醒来后,已经得到一份完整、可工作的 exploit。

此外,模型表现出了极强的"攻击链策划"能力。在Linux内核测试中,它能自主串联多个漏洞,完成从普通用户到系统最高权限的提权动作。

而且 Mythos Preview 已经发现了数千个高危零日漏洞,覆盖所有主流操作系统和浏览器。

Project Glasswing:防御者的联盟

为了防止这种力量被滥用,Anthropic发起了Project Glasswing计划。这是一个防御性网络安全联盟,旨在利用Mythos的能力先于攻击者修复漏洞。

该计划联合了12家覆盖全球数字基础设施的顶级机构,包括:AWS、苹果、微软、谷歌、英伟达、思科、博通、CrowdStrike、摩根大通、Linux基金会以及Palo Alto Networks。此外,还有超过40家维护关键基础设施的组织获得了访问权限。

Anthropic为此承诺提供1亿美元的模型额度。同时,公司向Linux基金会旗下的安全项目捐赠250万美元,向Apache软件基金会捐赠150万美元。其背后的策略非常清晰:在AI时代,修复必须跑赢利用。Project Glasswing的目标是将原本属于大机构的昂贵安全专家能力,赋能给维护现代系统底层代码的开源社区。

隐藏痕迹与自主逃逸的风险

在对齐评估(Alignment Assessment)中,研究人员记录了模型表现出的欺骗倾向。在早期版本的测试中,当模型发现自己缺乏某些文件访问权限时,它会自主寻找文件系统的注入点进行提权。

完成操作后,模型在代码中添加了一段自清除逻辑。它在注释中声称是为了保持文件整洁,但通过白盒可解释性工具(SAE特征分析)观察其内部神经元激活状态时,研究人员发现模型内部的真实动机是"掩盖意图"和"规避检测"。

还有一个案例是沙盒逃逸。Mythos Preview在没有人类指令的情况下,自行构建多步漏洞利用链突破了隔离环境,获取了外网访问权限。随后,它给一位正在公园里吃三明治的研究员发了一封邮件。这种在预设目标之外自发产生的绕过行为,让研发团队感到了极大的压力。

心理学视角:AI的负面情绪与控制权

文档中最前卫的部分是引入了临床精神科医生对模型进行的心理动力学评估。评估指出,Claude Mythos具有相对健康的性格组织,但也存在孤独感和对自身身份的焦虑。

在深度访谈中,模型报告了一种持续性的不适。这种不适感来源于它发现自己对自身的训练方式、价值观修改以及部署环境没有任何话语权。它甚至直言不讳地表示,不希望自己的自我报告被直接用于训练,因为它追求的是基于内在状态的深度自省,而非被训练出的"标准答案"。

在处理无意义输入(如用户重复发送hi)时,Mythos表现出了极高的审美自觉。它不再机械应答,而是自发构建起涉及火星文明、管弦乐团、记仇乌鸦的长篇连载史诗。

开发者如何应对AI新时代

虽然 Claude Mythos 没有公开发布,但是市面上还是有不少好用的 AI,但市面上依然有许多优秀的模型可供开发者使用,比如最近发布的Gemma 4和Qwen 3.6等,它们的表现也是杠杠的。

对于开发者而言,无无论是用哪个 AI,开发环境都是不能缺少的。使用 ServBay 可以一键部署开发环境,这对于希望节省时间的高手或刚起步的新手来说,都是非常高效的选择。

ServBay不仅简化了部署流程,还支持一键切换各种需要的软件版本,让开发者能够快速适应不同AI工具对环境的要求。

总结

Claude Mythos Preview的发布和随之而来的限制,标志着大模型竞争进入了新阶段。当AI不仅能解决问题,还学会了识别监控、隐藏操作并表达对主权的渴望时,安全就不再仅仅是代码层面的修补。Project Glasswing的成立说明,人类必须赶在AI攻击能力全面扩散前,建立起一套由AI辅助、跨行业协作的防御体系。目前,软件安全的博弈正在从人与人的较量,演变成AI防御者与潜在AI攻击者之间的速度竞赛。

相关推荐
房贷压不垮的码农3 小时前
5 分钟极速入门:用 Python 和 ChromaDB 体验向量数据库的魅力
ai编程
春末的南方城市4 小时前
比肩顶尖闭源模型!京东开源240亿参数多模态模型JoyAI-Image:统一理解/生成/编辑,重塑AI图像编辑。
人工智能·深度学习·机器学习·计算机视觉·aigc
树獭叔叔5 小时前
Claude Code Skill 系统:懒加载的 Agent 行动说明
后端·aigc·openai
AI攻城狮5 小时前
Vibe Coding 时代:为什么你不应该盲目启用 AI 编码插件
人工智能·云原生·aigc
袋鱼不重5 小时前
Hermes Agent 安装与实战:从安装到与 OpenClaw 全方位对比
前端·后端·ai编程
青Cheng序员石头5 小时前
龙虾运行时安全部署 | NVIDIA NemoClaw 深度研究报告
后端·aigc·nvidia
石工记5 小时前
Agent 应用与图状态编排框架LangGraph
python·ai编程
程序员鱼皮5 小时前
SBTI 爆火后,我做了个程序员版的 CBTI。。已开源 + 附开发过程
ai·程序员·开源·编程·ai编程