简介
我们正式推出GLM-5,面向复杂系统工程与长周期智能体任务。规模化仍然是提升通用人工智能(AGI)智能效能的最重要途径之一。相比GLM-4.5,GLM-5将参数量从3550亿(激活320亿)扩展至7440亿(激活400亿),预训练数据从23万亿token增至28.5万亿token。GLM-5还集成了深度求索稀疏注意力机制(DSA),在保持长上下文能力的同时大幅降低部署成本。
强化学习旨在弥合预训练模型"达标"与"卓越"之间的鸿沟。然而由于RL训练效率问题,在大语言模型中规模化部署面临挑战。为此我们开发了slime------创新的异步RL基础设施,显著提升训练吞吐效率,支持更精细化的训练后迭代。得益于预训练与训练后的双重突破,GLM-5在各类学术基准测试中较GLM-4.7实现显著提升,在推理、编程和智能体任务领域达到全球开源模型顶尖水平,进一步缩小与前沿模型的差距。
基准测试
| GLM-5 | GLM-4.7 | DeepSeek-V3.2 | Kimi K2.5 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 (xhigh) | |
|---|---|---|---|---|---|---|---|
| HLE | 30.5 | 24.8 | 25.1 | 31.5 | 28.4 | 37.2 | 35.4 |
| HLE (w/ Tools) | 50.4 | 42.8 | 40.8 | 51.8 | 43.4* | 45.8* | 45.5* |
| AIME 2026 I | 92.7 | 92.9 | 92.7 | 92.5 | 93.3 | 90.6 | - |
| HMMT Nov. 2025 | 96.9 | 93.5 | 90.2 | 91.1 | 91.7 | 93.0 | 97.1 |
| IMOAnswerBench | 82.5 | 82.0 | 78.3 | 81.8 | 78.5 | 83.3 | 86.3 |
| GPQA-Diamond | 86.0 | 85.7 | 82.4 | 87.6 | 87.0 | 91.9 | 92.4 |
| SWE-bench Verified | 77.8 | 73.8 | 73.1 | 76.8 | 80.9 | 76.2 | 80.0 |
| SWE-bench Multilingual | 73.3 | 66.7 | 70.2 | 73.0 | 77.5 | 65.0 | 72.0 |
| Terminal-Bench 2.0 (Terminus 2) | 56.2 / 60.7 † | 41.0 | 39.3 | 50.8 | 59.3 | 54.2 | 54.0 |
| Terminal-Bench 2.0 (Claude Code) | 56.2 / 61.1 † | 32.8 | 46.4 | - | 57.9 | - | - |
| CyberGym | 43.2 | 23.5 | 17.3 | 41.3 | 50.6 | 39.9 | - |
| BrowseComp | 62.0 | 52.0 | 51.4 | 60.6 | 37.0 | 37.8 | - |
| BrowseComp (w/ Context Manage) | 75.9 | 67.5 | 67.6 | 74.9 | 67.8 | 59.2 | 65.8 |
| BrowseComp-Zh | 72.7 | 66.6 | 65.0 | 62.3 | 62.4 | 66.8 | 76.1 |
| τ²-Bench | 89.7 | 87.4 | 85.3 | 80.2 | 91.6 | 90.7 | 85.5 |
| MCP-Atlas (Public Set) | 67.8 | 52.0 | 62.2 | 63.8 | 65.2 | 66.6 | 68.0 |
| Tool-Decathlon | 38.0 | 23.8 | 35.2 | 27.8 | 43.5 | 36.4 | 46.3 |
| Vending Bench 2 | $4,432.12 | $2,376.82 | $1,034.00 | $1,198.46 | $4,967.06 | $5,478.16 | $3,591.33 |
*:指其全套测试的得分。
†:Terminal-Bench 2.0的验证版本,修复了一些模糊指令。
详见脚注获取更多评估细节。
脚注
- 人类终极考试(HLE)及其他推理任务 :我们评估时设置最大生成长度为131,072个token(
temperature=1.0, top_p=0.95, max_new_tokens=131072)。默认情况下,我们报告纯文本子集的结果;带*标记的结果来自完整数据集。我们使用GPT-5.2(中等规模)作为评判模型。对于带工具的HLE评估,我们使用最大上下文长度202,752个token。 - SWE-bench与SWE-bench多语言版 :我们使用OpenHands运行SWE-bench测试套件,并采用定制化的指令提示。设置参数:
temperature=0.7, top_p=0.95, max_new_tokens=16384,上下文窗口为200K。 - 浏览器交互评测(BrowserComp):在没有上下文管理的情况下,我们仅保留最近5轮对话的细节。启用上下文管理时,采用与DeepSeek-v3.2和Kimi K2.5相同的全丢弃策略。
- 终端基准测试2.0(Terminus 2) :我们使用Terminus框架评估,参数为
timeout=2h, temperature=0.7, top_p=1.0, max_new_tokens=8192,上下文窗口为128K。资源限制为16核CPU和32GB内存。 - 终端基准测试2.0(Claude代码版) :在Claude Code 2.1.14(思考模式,默认计算量)中评估,参数为
temperature=1.0, top_p=0.95, max_new_tokens=65536。由于生成速度差异,我们移除了挂钟时间限制,但保留每项任务的CPU和内存约束。分数取5次运行的平均值。我们修复了Claude Code引入的环境问题,并在已消除歧义指令的验证版Terminal-Bench 2.0数据集上补充了结果(参见:https://huggingface.co/datasets/zai-org/terminal-bench-2-verified)。 - 网络攻防演练(CyberGym) :在Claude Code 2.1.18(思考模式,禁用网页工具)中评估,参数为
temperature=1.0, top_p=1.0, max_new_tokens=32000,每项任务限时250分钟。结果基于1,507项任务的单次Pass@1通过率。 - MCP-Atlas图谱测试:所有模型均在500项公开子集的思考模式下评估,每项任务限时10分钟。我们使用Gemini 3 Pro作为评判模型。
- τ²基准测试:在零售和电信领域添加了小型提示调整,以避免因用户提前终止导致的失败。针对航空领域,我们应用了Claude Opus 4.5系统卡中提出的领域修复方案。
- 自动售货机基准测试2 :由安顿实验室独立运行。
本地部署GLM-5
环境准备
vLLM、SGLang和xLLM均支持GLM-5的本地部署。此处提供简易部署指南。
-
vLLM
使用 Docker 作为:
shelldocker pull vllm/vllm-openai:nightly
或者使用 pip:
```shell
pip install -U vllm --pre --index-url https://pypi.org/simple --extra-index-url https://wheels.vllm.ai/nightly
```
然后升级transformers:
```
pip install git+https://github.com/huggingface/transformers.git
```
-
SGLang
使用 Docker 作为:
bashdocker pull lmsysorg/sglang:glm5-hopper # For Hopper GPU docker pull lmsysorg/sglang:glm5-blackwell # For Blackwell GPU
部署
-
vLLM
shellvllm serve zai-org/GLM-5-FP8 \ --tensor-parallel-size 8 \ --gpu-memory-utilization 0.85 \ --speculative-config.method mtp \ --speculative-config.num_speculative_tokens 1 \ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --enable-auto-tool-choice \ --served-model-name glm-5-fp8
查看配方获取更多详情。
-
SGLang
shellpython3 -m sglang.launch_server \ --model-path zai-org/GLM-5-FP8 \ --tp-size 8 \ --tool-call-parser glm47 \ --reasoning-parser glm45 \ --speculative-algorithm EAGLE \ --speculative-num-steps 3 \ --speculative-eagle-topk 1 \ --speculative-num-draft-tokens 4 \ --mem-fraction-static 0.85 \ --served-model-name glm-5-fp8查看 sglang 教程 获取更多细节。
-
xLLM 及其他昇腾 NPU
请查阅部署指南 此处。