2月,OpenRouter上线了代号为"Pony Alpha"的神秘模型,搜索量冲上第一,其强大的编程能力及针对智能体工作流的深度优化,迅速引发开发者社区关注**。**

Pony Alpha冲上榜一
社区开发者纷纷猜测此模型来源于哪个公司或者实验室,根据pony与中国马年的相关性,猜测它来自于某个中国公司

新春马年来临之际,智普清言发布GLM-5
GLM-5 是智谱 AI 推出的新一代旗舰基础模型,专为 Agentic Engineering(代理工程)量身打造。它能在复杂系统工程和长时间程 Agent 任务中,提供稳定且高生产力的表现。

在编码能力和 Agent 能力上,GLM-5 目前拿下了开源模型的最高水平(SOTA),实际使用体验已经非常接近 Claude Opus 4.5,尤其擅长处理复杂系统构建、长序列工程任务和多步自主代理工作,是打造通用智能 Agent 助手的极佳基座选择。

GLM-5的基础能力
发布当天,智谱港股大涨

GLM-5功能与特点
01
更大基座,更强智能
GLM-5 的全新基座为从写代码到写工程的能力跃迁奠定了坚实基础:

首先是新架构的参数规模大幅扩展:总参数从 355B(激活32B)跃升至 744B(激活40B),预训练数据量从23T增至28.5T,更大规模的算力投入显著提升了模型的通用智能与复杂任务处理能力;
然后是异步强化学习创新:全新打造 "Slime" 框架,支持更大规模模型与更复杂的强化学习任务,大幅提高后训练流程效率;同时提出异步智能体强化学习算法,让模型能从长程、多步交互中持续学习,深度挖掘预训练潜能。

本次最吸引人眼球的则是稀疏注意力机制首发集成,GLM-5采用了DeepSeek-V3/V3.2架构,首次引入DeepSeek Sparse Attention(DSA),在保持长上下文(高达 200K+ token)效果基本无损的前提下,显著降低部署与推理成本,提升整体 Token 效率。
02
Coding 能力:对齐 Claude Opus 4.5
GLM-5 在编程能力上实现了对 Claude Opus 4.5 的对齐,在业内公认的主流基准测试中取得开源模型最高分数。在SWE-bench-Verified 和 Terminal Bench 2.0 中分别获得 77.8 和 56.2 的开源模型最高分数,性能表现超过 Gemini 3.0 Pro。

多款热门模型评估对比
GLM-5 PK 前代
效果对比

相比前代GLM-4.7(甚至GLM-4.5),GLM-5核心升级:
实际表现上,GLM-5在SWE-bench Verified得分高达77.8%,逼近Claude Opus 4.5;在代理基准如GDPval-AA和Vending Bench 2上领先所有开源模型,综合智能指数(Artificial Analysis Intelligence Index)首次突破50分,成为开源新王者
GLM-5 的实际应用案例
有博主用同样的提示给4个模型: 制作一款复古的太空侵略者游戏。

GLM-5仅次于付费模型Gemini 3.1 Pro带来了多彩入侵者、粒子特效、爆炸效果以及完整的波形系统。

科技博主Parul Gautam展示了自己使用GLM-5 在实际操作中的 Agent 流程:从用户输入 prompt 开始,到逐步研究、分析数据、构建交互式全栈应用的全过程。视频中可以看到模型的思考链、工具调用、输出结果等,视觉上非常直观地证明了其自主规划和多步执行能力。
当然,GLM-5 是开源的,你可以在Hugging Face或Z.AI API上试用它。
未来,随着更多像DSA这样的创新,AI将从"工具"变成真正的"伙伴"。
你对GLM-5有什么看法?欢迎在评论区分享!
