GLM-4.5系列模型导读,综合能力更强的高性价比模型

在沉寂了半年之后,智谱推出了新一代开源模型GLM-4.5系列,采用MOE架构并使用混合推理模式。模型统一提升了在推理、代码与智能体等多方面的能力,专为复杂智能体应用打造。由于官方的技术报告暂未发布,模型细节暂时无从得知,本文内容仅做导读,方便读者对该系列模型有个初步认识。

技术架构

参数

GLM-4.5系列包含两个主要模型,均采用MoE架构:

● GLM-4.5:355B总参数,32B激活参数

● GLM-4.5-Air:106B总参数,12B激活参数

混合推理模式

GLM-4.5的一个突出特性是其混合推理能力,提供两种不同的工作模式:

● 思考模式(Thinking Mode):用于复杂推理和工具使用场景

● 非思考模式(Non-thinking Mode):提供即时响应

训练过程

模型架构与预训练

GLM-4.5系列模型采用了MoE架构,并且在MoE层中使用了无损的负载均衡路由以及sigmoid门控机制。相比DeepSeek-V3和Kimi K2降低了模型的宽度,改为增加了模型的深度。在自注意力模块中,使用了GQA并引入了部分旋转位置编码。优化器则使用了Muon优化器,加快了收敛速度并支持更大的批量大小。同时引入了QK-Norm,用于保持注意力logits的稳定。此外,GLM-4.5系列模型均加入了 MTP层,以支持推理阶段的推测解码。 基础模型经历了多个训练阶段。在预训练期间,模型首先在15万亿tokens的通用语料库上进行训练,随后又在7万亿tokens 的代码与推理语料库上进一步训练。在预训练之后,引入了额外的阶段以进一步提升模型在关键下游任务上的性能。不同于此前基于大规模通用文档的预训练,这些阶段使用的是中等规模的领域特定数据集,包括指令类数据。

基于强化学习的后训练

后训练阶段对于大语言模型而言至关重要,它通过模型自身生成的探索式经验不断优化其策略。强化学习是推动模型能力极限的重要步骤。GLM-4.5整合了来自 GLM-4-0414的通用能力和来自 GLM-Z1的推理能力,还特别增强了模型的智能体能力,包括智能体编程、深度搜索和通用工具使用能力。这一过程首先是对精选的推理数据和合成智能体场景进行监督微调,接着进入强化学习阶段以分别培养对应的专家模型。

● 推理方面:在完整的64K上下文中进行的一阶段RL训练,结合基于难度的课程学习策略,这种方式优于传统的逐步调度方法。为了提升训练稳定性,引入了动态采样温度机制以平衡探索与利用,以及在STEM问题上的自适应剪裁策略以实现更稳健的策略更新。

● 智能体任务方面:选取了两个可验证任务:基于信息检索的问答与软件工程任务。使用可扩展的策略来自动构造基于搜索的问答样本,方法包括引入人工协助的网页内容抽取与选择性遮蔽。代码任务则依赖实际软件工程任务中的执行反馈来驱动训练。

虽然强化学习主要集中在少量可验证任务上,但所获得的能力可以迁移至其他相关领域,如通用工具使用。随后通过专家蒸馏整合这些专长技能,使 GLM-4.5 在各项任务中具备全面而强大的能力。

榜单评测

在12项行业标准基准测试中,GLM-4.5取得了63.2分的综合成绩,在所有专有和开源模型中排名第三,仅次于o3和Grok-4。

● 代码生成能力:在代码生成领域,GLM-4.5相对于Kimi K2取得了53.9%的胜率,对Qwen3-Coder达到了80.8%的成功率。

● 智能体任务表现:在Agent任务中,在工具调用成功率方面,GLM-4.5达到了90.6%的最高平均成功率,超越了Claude-4-Sonnet(89.5%)、Kimi-K2(86.2%)和Qwen3-Coder(77.1%)。

● 网络浏览能力:在BrowseComp基准测试中,GLM-4.5在网络浏览任务中取得了26.4%的正确率,超越了Claude-4-Opus的18.8%,接近o4-mini-high的28.3%。

真实数据

为了在真实场景中评估 GLM-4.5 的智能体式编程能力 ,智谱构建了 CC-Bench 测试集------以 Claude Code 作为智能体编程测试平台,对 GLM-4.5、Claude-4-Sonnet、Kimi-K2 和 Qwen3-Coder 四个模型进行了全面测试。测试涵盖 52 个精心设计的编码任务,覆盖多个开发领域。该数据集包含了这四个模型在全部 52 项任务中的完整智能体交互轨迹。

测试数据集

评估数据集分为6大类别,包含52个编码任务:

类别 描述 数量 任务ID
前端开发 使用 HTML5、CSS3、JavaScript 构建轻量级前端游戏和工具 7 1-7
应用开发 使用 React、Node.js、Next.js、TypeScript、Go、iOS 开发管理系统、聊天系统、工具和移动应用 15 8-22
UI/UX 优化 界面样式设计、用户体验优化、布局改进 13 23-35
构建与部署 项目构建、测试、部署相关问题解决 4 36-39
数据分析 数据处理、统计分析、可视化 5 40-44
机器学习 聚类、语音分析、图像处理、图像识别等 8 45-52

评估方法

环境设置

● 隔离测试环境:每个任务运行在一个独立的容器中,使用独立环境,并拉取对应代码分支,确保无干扰。

● 模型配置:Claude Code在任务目录中启动,各模型的base_urlapi_key已正确配置。

多轮交互测试流程

  1. 初始提示:评估员输入预定义的任务提示,启动问题求解。

  2. 迭代交互:根据模型的中间输出,评估员与模型进行多轮对话,逐步调整输入以推动问题解决。

  3. 公平性保障:每个任务均由同一评估员完成,对所有模型采用一致的交互策略,确保公平。

评分与判定标准

● 主要标准 ------ 任务完成度:基于预定义的完成标准进行量化评分,判断 GLM-4.5 与对比模型之间的胜负或平局。

● 次要标准 ------ 效率与可靠性:若任务完成度相同,则工具调用成功率更高或token消耗更少的模型视为胜者。

● 最终评估原则:优先考虑功能正确性和任务完成情况,而非效率指标,确保编程能力为核心评估重点。

整体性能表现

在一对一的直接对比中:

对比对象 GLM-4.5 胜率 平局率 败率
vs Claude-4-Sonnet 40.4% 9.6% 50.0%
vs Kimi-K2 53.9% 17.3% 28.8%
vs Qwen3-Coder 80.8% 7.7% 11.5%

GLM-4.5 的平均工具调用成功率达到 90.6%,高于 Claude-4-Sonnet(89.5%)、Kimi-K2(86.2%)、和 Qwen3-Coder(77.1%),表现出在智能体编程任务中更优的稳定性与效率。 GLM-4.5相比Claude-4-Sonnet仍有提升空间,在大部分场景中可以实现平替的效果

评测数据链接:huggingface.co/datasets/za...

开发者使用

GLM-4.5 API兼容多种AI编程工具,可以与Claude Code、Gemini CLI、Cline等工具搭配使用。以下仅以Claude Code作为演示,其余工具的配置过程大同小异。

  1. 获取API密钥 请访问Z.AI官方网站,获取您的API密钥。

  2. 配置环境变量 安装Claude Code后,可通过以下两种方式之一配置环境变量:

方法一:使用脚本配置(首次用户推荐)

bash 复制代码
curl -O "http://bigmodel-us3-prod-marketplace.cn-wlcb.ufileos.com/1753683755292-30b3431f487b4cc1863e57a81d78e289.sh?ufileattname=claude_code_prod_zai.sh"

方法二:手动配置

bash 复制代码
export ANTHROPIC_BASE_URL=https://api.z.ai/api/anthropic  
export ANTHROPIC_AUTH_TOKEN={YOUR_API_KEY}
  1. 开始使用

如果系统提示"是否要使用此 API 密钥?",选择"是"。

启动后,按如下所示授权 Claude Code 访问您当前文件夹中的文件,即可正常使用。

结论

更强的性能,更少的参数

GLM-4.5参数量仅为DeepSeek-R1 的 1/2、Kimi-K2的1/3,但参数效率更高,性能更强 。在 SWE-Bench Verified 等图谱中,GLM-4.5 系列位于性能/参数比帕累托前沿 ,这表明在相同规模下,GLM-4.5 系列实现了最佳性能。

更低的成本、更高的速度

得益于参数量的减少与效率的提升,API调用价格最低可达到输入0.8元/百万 tokens,输出2元/百万tokens

参考内容

Huggingface : huggingface.co/zai-org/GLM...

CC-Bench数据集 :huggingface.co/datasets/za...

官方blog :z.ai/blog/glm-4....

Github :github.com/zai-org/GLM...

相关推荐
我不是小upper1 分钟前
anaconda、conda、pip、pytorch、torch、tensorflow到底是什么?它们之间有何联系与区别?
人工智能·pytorch·深度学习·conda·tensorflow·pip
智汇云校乐乐老师24 分钟前
产教融合 AI赋能 创新引领 | 第十七届高校教育发展高峰论坛在利川成功举办!
人工智能·高峰论坛·讯方技术
热河暖男28 分钟前
Spring Boot AI 极速入门:解锁智能应用开发
java·人工智能·spring boot·ai编程
SugarPPig30 分钟前
(一)LoRA微调BERT:为何在单分类任务中表现优异,而在多分类任务中效果不佳?
人工智能·分类·bert
zzywxc78737 分钟前
在处理大数据列表渲染时,React 虚拟列表是提升性能的关键技术,但在实际实现中常遇到渲染抖动和滚动定位偏移等问题。
前端·javascript·人工智能·深度学习·react.js·重构·ecmascript
oscar9991 小时前
在线免费的AI文本转语音工具TTSMaker介绍
人工智能·语音
zhongqu_3dnest1 小时前
VR 三维重建:开启沉浸式体验新时代
人工智能·计算机视觉
美狐美颜sdk1 小时前
直播平台中的美白滤镜实现:美颜SDK的核心架构与性能优化指南
人工智能·深度学习·计算机视觉·美颜sdk·第三方美颜sdk·视频美颜sdk·美颜api
音视频牛哥1 小时前
智能平台的感知进化:AI × 视频通感在群体终端协同中的应用探索
人工智能·计算机视觉·音视频开发