那个霸榜的Pony Alpha现身了：智谱GLM-5硬刚Claude Opus

还记得前段时间在OpenRouter榜单上那个神秘兮兮、一度登顶热度榜的"Pony Alpha"吗？当时圈子里都在猜是哪家巨头又憋了个大招，是OpenAI的暗桩？还是Anthropic的新马甲？

2026年2月12日，谜底揭晓。不是硅谷的科技新贵，而是来自北京海淀的智谱AI。

这不仅仅是一次简单的版本号更迭。GLM-5的发布，实际上宣告了国产大模型从"能聊天"正式跨越到了"能干活"的工程化阶段。我看完了智谱长达几十页的技术报告和Github上的代码库，剔除掉那些公关辞令，这就带大家看看这台名为GLM-5的机器到底成色几何。

先看最吓人的数字：744B。

是的，GLM-5的总参数量高达7440亿。这是什么概念？上一代GLM-4.5才355B，直接翻了一倍多。但别被这个数字劝退，这里面藏着智谱的技术鸡贼（褒义）：它采用了MoE（混合专家）架构，虽然块头大，但真正跑起来的"激活参数"只有40B。

这意味着什么？意味着它拥有巨型模型的知识储备，跑起来却只有中型模型的能耗。而且，智谱这次非常务实地集成了DeepSeek的Sparse Attention（稀疏注意力机制）。这个技术动作很关键，它解决了长文本"吞金兽"的问题，让200K的上下文窗口不再是摆设，而是真正用得起的生产力工具。

至于预训练数据，28.5T tokens。比前代涨了24%。在这个数据枯竭的年代，还能榨出这么多高质量token，本身就是护城河。

程序员最关心的Coding能力，这次GLM-5是奔着"砸场子"去的。

在SWE-bench-Verified这个目前公认最硬核的编程测试里，GLM-5拿下了77.8分。

为了让大家有个直观概念：Google的Gemini 3 Pro被它甩在身后，而目前公认的"代码之神"Claude Opus 4.5，分数在80分左右。也就是说，GLM-5已经无限逼近了目前人类AI编程的天花板。它不再是那个只能写写冒泡排序的玩具，而是能直接修补GitHub真实Issue的工程师。

智谱甚至搞了个"Z Code"智能体环境，你只需要动动嘴皮子提需求，它能在后台并发调度多个Agent，自己写代码、自己跑终端、自己Debug，最后把成品端上来。这才是我们想要的"AI编程"，而不是给AI当纠错员。

如果说写代码是硬功夫，那"经营模拟"就是考智商了。

在Vending Bench 2（自动售货机经营模拟）测试中，GLM-5操作了一年的虚拟生意，最终账户余额4432美元。作为对比，Claude Opus 4.5是4967美元。

这个测试考的不是算术，而是长程规划、资源管理和策略调整。大多数模型在这个测试里撑不过一个月就会破产，但GLM-5不仅活下来了，还赚了钱。这证明了它具备了处理复杂长链路任务的"Agent（智能体）"能力，这才是通往AGI的门票。

这一点必须单拎出来说。GLM-5是在纯国产算力上跑出来的。

官方名单列了一串：华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光。一共7家。这不只是"适配"那么简单，是在深度推理层面做到了高吞吐和低延迟。

这意味着，即使在算力封锁的背景下，国内企业依然能用上世界第一梯队能力的模型，而且不用担心哪天被断供。这可能是GLM-5不仅对于开发者，对于整个产业界最大的安全感来源。

现在的开源社区已经很久没有这么让人兴奋的大家伙了。MIT协议开源，权重直接扔在Hugging Face和魔搭社区，这种"掀桌子"的打法，无疑会给闭源模型厂商带来巨大的压力。

当你发现一个免费开源的模型，在写代码和做复杂任务上已经能和月费20美元的顶流闭源模型打得有来有回时，选择其实已经很简单了。

GLM-5或许还不是完美的AGI，但它绝对是目前也是你可以免费下载到的、最接近那个未来的工具。

如果你也对最新的AI信息感兴趣或者有疑问都可以加入我的大家庭第一时间分享最新AI资讯、工具、教程、文档欢迎你的加入！！！😉😉😉

公众号：墨风如雪小站