面向开源生态的高性能大模型 GLM-5.1 发布：技术性能达国际前沿水准

2026年4月8日，全球人工智能大模型领域首家上市企业智谱AI，正式发布并开源其当前技术迭代周期内性能最优的旗舰级大语言模型GLM-5.1，该模型同时跻身当前全球开源大模型体系中综合性能领先的产品序列。

作为国产自主研发的大模型产品，GLM-5.1在核心技术指标与工程化能力层面，已实现与海外顶级闭源模型Claude Opus 4.6的全面对标；

其具备的单次任务连续8小时自主执行、独立交付工程化落地成果的核心能力，实现了人工智能应用范式的突破性升级，推动人工智能技术从传统的问答交互场景，进阶至全流程自主完成复杂项目任务的全新发展阶段。

区别于全球大模型行业过去一年普遍采用的低价竞争、以价换量的主流发展策略，智谱AI针对GLM-5.1模型采取了定价上调10%的市场策略，其中编码应用场景的服务定价，首次实现与海外头部人工智能企业Anthropic同层级产品的定价持平。

这一市场行为标志着，国产大模型产业的发展逻辑已完成根本性转型 ，逐步脱离低水平价格竞争的发展路径，转向依托核心技术性能构建产品溢价能力的高质量发展模式，全球大模型市场的定价主导权已出现结构性转移。

开源大模型领域实现与国际顶尖模型技术水平的首次持平

长期以来，全球大语言模型领域存在显著的技术分层格局，开源模型与顶尖闭源模型之间始终存在可量化的能力差距，其中中国开源大模型在国际通用能力评价体系中，长期处于追赶海外顶级闭源模型的发展阶段，与Claude、GPT系列等国际顶尖闭源产品相比，始终存在明显的性能落差。

智谱GLM-5.1大模型的正式发布，打破了 这一长期存在的行业格局。在SWE-bench Pro基准测试中------该测试以真实GitHub仓库的工业级软件开发任务为核心，长期被GPT、Claude系列等海外顶级闭源模型垄断头部排名------GLM-5.1刷新该基准测试的全球纪录，实现了 国产模型对Claude Opus 4.6的首次超越，成为首个在该核心基准上超越海外顶级闭源模型的开源产品。

代码能力作为衡量大模型智能水平的核心指标，是模型实现能力进阶的关键标尺，GLM-5.1在该领域完成了重要升级。综合SWE-Bench Pro、Terminal-Bench 2.0、NL2Repo三项业内主流代码评测基准的得分情况，GLM-5.1取得了全球模型第三名、国产模型第一名、开源模型第一名的优异成绩，充分彰显其在代码能力上的核心竞争力。

更为突出的是，GLM-5.1在长程任务处理能力上实现了突破性进展，成为全球范围内少数能够支持8小时级持续工作的开源模型，也是除Claude Opus 4.6之外，全球少数具备该长程工作能力的模型之一。

据智谱相关技术团队介绍，GLM-5.1已完成从短时任务（3分钟Vibe Coding）、中时任务（30分钟Agentic Engineering）到长时任务（8小时持续交付）的全场景覆盖，实现了代码与工程能力向交付级别的根本性跨越。

国内AI行业资深分析师指出，GLM-5.1此次在核心基准测试中取得的突破，不仅标志着 国产开源模型首次登顶全球核心评测榜单，更意味着 开源模型在核心通用能力上，首次实现了与全球顶级闭源模型的比肩乃至超越，以客观、可量化的测试数据，证实了开源模型在核心技术领域的发展潜力与突破空间。

国产模型价格首次对齐海外

1.GLM-5.1 对全球大模型技术格局的重塑：

在模型性能实现显著提升的基础上，智谱在商业化定价层面亦逐步与海外头部厂商趋于一致。

模型聚合平台 OpenRouter 的数据显示，智谱 GLM 系列产品价格上调 10%，调整后 GLM‑5.1 在代码场景下缓存命中的 Token 定价已接近 Anthropic 旗下 Claude Sonnet 4.6 水平。

反观此前一年，大模型行业普遍陷入价格竞争，多数厂商通过大幅降价以抢占市场份额，降价幅度普遍超过九成。在此背景下，智谱采取反向提价策略，其背后逻辑引发行业关注。

业内观点指出，GLM‑5.1 提价并与 Anthropic 定价对齐，本质上反映出该模型已具备向企业及个人用户提供与 Claude 相当的工程化应用价值。智谱 CEO 张鹏曾在公开场合表示，长期低价竞争不利于行业健康发展，此次调价意在将产品定价回归合理的商业价值区间。

他进一步提出，长程任务所需的 Token 消耗往往为简单问答任务的数十倍，价格调整本质上是模型实际应用价值提升的客观体现。

行业分析师亦认为，智谱的核心策略并非依靠低价换取市场规模，而是通过持续提升模型智能水平，以技术性能对标国际基准。

当模型可独立完成长达 8 小时的工程级任务时，其创造的商业价值已远超传统问答式交互，从而为定价策略提供了坚实支撑。

2.GLM-5.1 对全球大模型技术格局的重塑：

长期以来，全球大语言模型领域呈现明显的技术分层态势，开源模型与顶级闭源模型之间存在可量化的能力鸿沟，国产开源模型亦长期处于技术追赶位置，在国际通用能力评测中与 GPT、Claude 系列产品存在显著差距。

GLM‑5.1 的发布打破了这一格局。在基于真实工业级软件开发场景的 SWE‑bench Pro 基准测试中，该模型刷新全球纪录 ，实现国产模型对 Claude Opus 4.6 的首次超越，成为首个在该权威基准上超越海外顶级闭源模型的开源产品。代码能力作为衡量大模型智能化水平的重要维度，GLM‑5.1 在此实现关键突破。

综合 SWE‑Bench Pro、Terminal‑Bench 2.0、NL2Repo 三项主流代码评测结果，该模型位列全球第三、国产模型第一、开源模型第一，展现出突出的代码生成与工程能力。

此外，GLM‑5.1 在长时序任务处理方面实现重要进展，成为全球少数可支持 8 小时连续作业的开源模型，其任务覆盖范围从短时编码、中时智能工程延伸至长时工程交付，标志着代码与工程能力正式迈入可落地交付阶段。

业内专家评价认为，GLM‑5.1 的测试表现不仅意味着国产开源模型首次登顶国际权威榜单，更证明开源模型在核心通用能力上可与全球顶级闭源模型比肩甚至超越，为开源大模型的技术突破与商业化价值提升提供了实证依据。

模型独自"上班"8小时

与当前主流的分钟级交互型大语言模型存在显著差异，GLM-5.1模型以长程任务处理为核心设计目标，具备在单次任务中独立、持续工作长达8小时的能力，可在任务执行过程中自主完成规划、实施、自我迭代优化等全流程操作，最终输出完整的工程级交付成果，突破了传统模型在任务持续时长与自主执行能力上的局限。

2025年3月，AI安全研究机构METR提出了一项重塑行业认知的评价指标------任务完成时间线（Task-Completion Time Horizon），该指标打破了传统模型以"智能程度"为核心的评价逻辑，转而聚焦于模型独立完成人类任务的持续时长。

相关研究数据表明，全球前沿大语言模型的任务完成时间线呈现指数级增长态势，每7个月即可实现翻倍。这一指数增长曲线被《MIT Technology Review》（麻省理工科技评论）誉为"人工智能领域最重要的可视化成果"，红杉资本（Sequoia Capital）亦基于该曲线，于2026年初提出"此即为通用人工智能（AGI）"的判断。

为实现长程任务处理能力的突破，智谱研发团队对模型训练方法进行了关键性优化，核心措施包括扩展任务过程的训练窗口、针对性提升模型的工具使用（tool use）能力。经过迭代优化的GLM-5.1模型，能够构建"实验设计---结果分析---方案优化"的完整工作闭环，具备类工程师的自主工作能力：在任务执行遭遇阻碍时可主动切换实施策略，在出现操作错误后能够自主完成修复，最终实现工程级成果的独立交付。

以"8小时从零构建Linux桌面系统"为典型测试任务，具体实践过程显示：用户在日间完成系统架构草图设计后，于夜间将任务交付给GLM-5.1，模型经过8小时的持续自主执行，累计完成1700余步操作，在任务启动20分钟时即产出首个具有实际意义的阶段性成果，最终交付一套功能完备的Linux桌面系统，配套文件大小达4.8MB，涵盖桌面环境、窗口管理器、状态栏、应用程序套件、VPN管理器、中文字体支持及游戏库等核心组件。

该成果的工作量相当于4人开发团队一周的常规开发任务，且整个执行过程未涉及任何人类介入的测试兜底、代码审查等辅助操作。

值得关注的是，GLM-5.1在任务执行过程中展现出较强的自我校验能力，能够自主为其生成的代码编写回归测试用例，并独立完成测试验证过程。

据智谱相关团队披露，其核心发展目标为实现全自治智能体（Autonomous Agent）的构建，致力于让模型具备7×24小时不间断的任务感知、目标分解、执行交付、自我评估与纠错、自我迭代进化能力，最终达成无需人类干预即可完成复杂任务的终极目标。