智谱GLM-4.6/4.5深度解析：ARC三位一体的技术革命与国产模型崛起

摘要： 智谱AI在2025年推出GLM-4.5/4.6系列大模型，采用创新的"ARC"三位一体能力架构（智能体、推理、编码融合），实现技术突破：1. 架构上采用深度优化的MoE设计，通过三阶段训练和自研Slime强化学习框架提升性能；2. GLM-4.6在编码能力上超越国际标杆，实现国产芯片高效部署；3. 提出"模型即场景"理念，探索智能体协同群新范式。该系列在12项基准测试中取得国产第一、全球第三的成绩，同时通过token优化和国产化部署显著降低成本。智谱通过全面开源构建技术生态，展示了中国在通用人工智能发展路径上的创新思考。大模型竞争正从规模竞赛转向能力融合，智谱通过GLM-4.5/4.6系列展示了中国在通用人工智能道路上的独特思考。

2025年下半年，智谱AI相继发布GLM-4.5和GLM-4.6两大旗舰模型，不仅在技术指标上实现重大突破，更在模型架构设计理念上提出了独特的"ARC"三位一体能力模型------即Agentic（智能体）、Reasoning（推理）、Coding（编码） 的深度融合。官网：https://open.bigmodel.cn/

这一创新使得GLM系列模型在多项基准测试中取得开源模型第一、国产模型第一、全球模型第三的优异成绩。

1 GLM-4.5技术架构设计：三位一体的ARC能力模型

1.1 模型架构创新：更深的MoE设计

GLM-4.5系列采用混合专家（MoE）架构，包含两个主要版本：GLM-4.5总参数量3550亿，激活参数为320亿；GLM-4.5-Air总参数量1060亿，激活参数为120亿。与DeepSeek-V3等主流架构相比，GLM-4.5选择了缩小模型宽度、增加模型深度 的设计思路，这一调整显著提升了模型的推理能力。GLM-4.5官方文档：https://docs.bigmodel.cn/cn/guide/models/text/glm-4.5

在技术实现上，GLM-4.5引入了多项创新：

无损平衡路由（loss-free balance routing）和sigmoid门控机制，优化专家选择效率
分组查询注意力（Grouped-Query Attention）结合部分RoPE（旋转位置编码），将注意力头数量提升到原来的2.5倍（96个注意力头）
QK-Norm技术稳定注意力logits取值范围，防止注意力过度集中或分散

值得注意的是，增加注意力头数量并未带来更低的训练损失，但在MMLU和BBH等推理类基准测试上的表现却得到显著提升，这反映了GLM-4.5在设计上对推理能力的特殊优化。

1.2 训练流程创新：三阶段训练法

GLM-4.5的训练流程包含三个关键阶段，构成了完整的能力培育体系：

预训练阶段：使用15万亿token的通用数据进行基础训练，在数据质量处理上采用多种评估方法，对高质量数据进行上采样（Up-Sampling）。代码数据收集自GitHub等平台，先进行基于规则的初步过滤，再使用针对不同编程语言的质量模型分级处理。

中期训练阶段 ：这是GLM-4.5的特色所在，采用中等规模的领域特定数据集，在三个专项场景提升模型性能：

仓库级代码训练：通过拼接同一仓库的多个代码文件及相关开发记录，帮助模型理解跨文件依赖
合成推理数据训练：利用数学、科学和编程竞赛题目合成推理过程数据
长上下文与智能体训练：扩展序列长度，加入智能体轨迹数据

后训练阶段 ：采用两步走策略，先打造专注于推理、智能体和通用对话的专家模型，再通过自我蒸馏技术将多个专家模型整合为统一模型。

1.3 强化学习优化：自研Slime框架的威力

在强化学习阶段，GLM-4.5使用了自研并开源的Slime框架，针对灵活性、效率和可扩展性进行了多项关键优化。Slime框架的最大特点是在同一套统一系统中，同时支持灵活的训练模式和数据生成策略，满足不同RL任务的差异化需求。

GLM-4.5在强化学习中采用了创新性的迭代自蒸馏提升技术：在强化学习训练达到平台期后，用RL模型生成的响应替换原始冷启动数据，形成更优的SFT模型，再继续强化学习。这种"自我提升"机制使得模型能够不断突破性能瓶颈。

在智能体任务中，团队观察到模型性能随着与环境交互轮数的增加而显著提升。与常见的使用更多token进行推理不同，智能体任务利用测试时计算资源持续与环境交互实现性能提升，例如反复搜索难以获取的网页信息，或为编码任务编写测试用例进行自我验证和修正。

2 GLM-4.6的核心升级：国产最强Coding模型的诞生

GLM-4.6官方文档：https://docs.bigmodel.cn/cn/guide/models/text/glm-4.6

2.1 性能突破：全面超越国际标杆

GLM-4.6作为GLM-4.5的升级版，在2025年9月底发布，主要体现在四大核心升级上：

编码能力全面提升：在涵盖数学、编程、逻辑推理的8大权威基准中，GLM-4.6的综合表现稳居国产模型首位。在真实任务测试中，研发团队在Claude Code环境下设置了74个真实编程任务进行实测，GLM-4.6的实际表现超过了Claude Sonnet 4。

智能体能力升级：上下文窗口从128K扩展至200K，显著增强对长代码文件和复杂智能体任务的处理能力。同时增强了搜索智能体和工具调用功能，在智能体框架中表现更出色。

推理效率提升与成本下降：在完成相同任务时，GLM-4.6的平均消耗的Token数量比前代GLM-4.5减少了30%以上，这被认为是目前同类模型中最低的，大幅降低了用户的使用成本。

国产芯片高效部署方案：GLM-4.6实现了与国产芯片的深度适配。在寒武纪芯片上，首次实现了FP8+Int4混合量化的投产部署方案，在几乎不损失精度的前提下，大幅降低了推理成本。同时，基于vLLM推理框架，也能在摩尔线程新一代GPU上基于原生FP8精度稳定运行。

2.2 真实场景测试：从ToDo List到微信公众号编辑器

在真实场景测试中，GLM-4.6展现了令人印象深刻的编码能力。在一项"ToDo List高级版"的前端开发任务中，GLM-4.6需要实现一个支持两种任务展示方式（列表和四象限）、子任务支持、时间过滤和多种排序方式的功能完善的任务管理网页应用。

测试结果显示，GLM-4.6在满分5分的情况下获得了4.8分的高分，与Claude Sonnet 4不相上下，明显优于其他国内模型如KiMi K2（1分）和Deepseek-V3.2-Exp（3分）。与国外模型对比也不落下风，Gemini 2.5 Pro（1.5分）和GPT-5-codex（2.5分）的表现均不如GLM-4.6。

在更具挑战性的"支持公式的微信公众号编辑器"任务中，GLM-4.6需要实现一个能够将公式复制到微信公众号编辑器并保持样式的Markdown编辑器。虽然全栈模式得分3分，非全栈模式得分2分，但整体表现仍显示出其在复杂前端任务上的强大能力。

3 技术理念创新：智谱的"反共识"思考

3.1 预训练的重要性：被忽视的基石

在行业普遍将注意力转向推理和智能体技术时，智谱CEO张鹏提出了一个"反共识"观点：预训练大模型仍然至关重要。张鹏认为，预训练是大模型推理能力的天花板，后续的强化学习或其他方法本质上都是在深度挖掘和逼近这个天花板。

这种坚持在技术策略上得到体现：GLM-4.5没有盲目追求参数规模，而是通过更高参数效率实现性能突破。GLM-4.5参数量仅为DeepSeek-R1的1/2、Kimi-K2的1/3，但在多项标准基准测试中表现更为出色。

3.2 模型即场景：智能体应用的新范式

智谱提出"模型即场景"的理念，认为未来的AI应用形态会回归以模型为核心的结构，产品只是"很薄的外壳"。张鹏指出："未来很多的应用会以模型为核心，包上一个很浅的或者很薄的产品化的壳就会变成一个产品。模型能力一旦提升产品能力就得到提升，这是很典型的新应用范式的变化。"

这一理念在AutoGLM沉思产品中得到体现，这是行业中第一个无门槛、免费且人人可用的Agent产品。与Manus等需要39美元月费的产品不同，AutoGLM沉思完全免费开放，展示了智谱在Agent技术上的自信。

3.3 从单一智能体到智能体协同群

面对单一智能体的局限性，智谱前瞻性地提出了向 "Agentic AI（智能体协同群）" 升级的路径。通过新增中心化编排层，在封闭系统内实现统一目标下的多智能体协作，将多个智能体整合为"超级代理"。

这种智能体协同群能够覆盖多领域知识融合、复杂环境动态响应及长周期任务接力等需求，是推动AI从技术走向落地的关键环节。下一步，智谱计划依托区块链、联邦学习等分布式技术协议，开发开放环境下智能体互联即IoA（智联网），打造"智能体即服务"和"网络即协作平台"的生态。

4 性能表现：12项基准测试的全面验证

4.1 综合能力评估：国产第一、全球第三

智谱对GLM-4.5进行了12项核心基准测试，分别为MMLU-Pro、AIME24、MATH-500、SciCode、GPQA、HLE、LCB(2407-2501)、SWE-BenchVerified、Terminal-Bench、TAU-Bench、BFCLV3、BrowseComp。

测试结果显示，GLM-4.5的综合平均分取得了全球模型第三、国产模型第一，开源模型第一的成绩。在智能体领域，GLM-4.5在四项测试中的得分与平均分位列参与测试的模型前列，平均分仅次于OpenAI o3。

在推理方面，GLM-4.5在AIME24和SciCode上优于OpenAI o3；整体平均表现超过了Claude Opus 4，并且接近DeepSeek-R1-0528。在编程能力上，GLM-4.5在SWE-bench Verified上的表现优于GPT-4.1和Gemini-2.5-Pro；在Terminal-Bench上优于Claude Sonnet 4。

4.2 真实代码智能体评估：平替Claude的实力

为评估GLM-4.5在真实场景下的智能体编程能力，团队构建了CC-Bench基准，使用52个编程开发任务涵盖六大开发领域，在独立容器环境中进行多轮交互测试。

实测结果显示：

GLM-4.5 vs Claude 4 Sonnet：胜率40.4%，平局9.6%，败率50.0%
GLM-4.5 vs Kimi K2：胜率53.9%，平局17.3%，败率28.8%
GLM-4.5 vs Qwen3-Coder：胜率80.8%，平局7.7%，败率11.5%

这些结果表明，GLM-4.5相对其他开源模型展现出强劲竞争优势，特别在工具调用可靠性和任务完成度方面表现突出。虽然相比Claude-4-Sonnet仍有提升空间，但在大部分场景中可以实现平替的效果。

5 成本与效率：商业化落地的关键优势

5.1 突破性的定价策略

GLM-4.5系列在成本和效率上实现突破，带来远低于主流模型的定价：API调用价格低至输入0.8元/百万tokens，输出2元/百万tokens。这种定价策略大幅降低了AI应用的开发现实门槛，使得更多中小企业能够负担得起大规模AI能力集成。

同时，GLM-4.6进一步优化了token消耗，比前代GLM-4.5减少了30%以上，被认为是目前同类模型中最低的。这种持续的成本优化显示智谱在推进AI普惠化上的坚定承诺。

5.2 高速推理与国产化部署

GLM-4.5的高速版本实测生成速度超过100tokens/秒，支持低延迟、高并发的实际部署需求。更重要的是，GLM-4.6实现了与国产芯片的深度适配，在寒武纪芯片上首次实现FP8+Int4混合量化部署方案，在摩尔线程GPU上基于原生FP8精度稳定运行。

这种国产化适配能力对于推进AI技术安全可控具有重要意义，为政务、金融等关键领域的AI应用提供了坚实基础。

6.调用官方API代码案例

6.1 Python调用示例

step1.安装 SDK

bash 复制代码

# 安装最新版本
pip install zai-sdk
# 或指定版本
pip install zai-sdk==0.0.4

step2.验证安装

python 复制代码

import zai
print(zai.__version__)

step3.基础调用

python 复制代码

from zai import ZhipuAiClient

client = ZhipuAiClient(api_key="your-api-key")  # 请填写您自己的 API Key

response = client.chat.completions.create(
    model="glm-4.6",
    messages=[
        {"role": "user", "content": "作为一名营销专家，请为我的产品创作一个吸引人的口号"},
        {"role": "assistant", "content": "当然，要创作一个吸引人的口号，请告诉我一些关于您产品的信息"},
        {"role": "user", "content": "智谱AI开放平台"}
        ],
    thinking={
        "type": "enabled",    # 启用深度思考模式
    },
    max_tokens=65536,          # 最大输出 tokens
    temperature=1.0           # 控制输出的随机性
)

# 获取完整回复
print(response.choices[0].message)

step4.流式调用

python 复制代码

from zai import ZhipuAiClient

client = ZhipuAiClient(api_key="your-api-key")  # 请填写您自己的 API Key

response = client.chat.completions.create(
    model="glm-4.6",
    messages=[
        {"role": "user", "content": "作为一名营销专家，请为我的产品创作一个吸引人的口号"},
        {"role": "assistant", "content": "当然，要创作一个吸引人的口号，请告诉我一些关于您产品的信息"},
        {"role": "user", "content": "智谱AI开放平台"}
    ],
    thinking={
        "type": "enabled",    # 启用深度思考模式
    },
    stream=True,              # 启用流式输出
    max_tokens=65536,          # 最大输出tokens
    temperature=1.0           # 控制输出的随机性
)

# 流式获取回复
for chunk in response:
if chunk.choices[0].delta.reasoning_content:
print(chunk.choices[0].delta.reasoning_content, end='', flush=True)

if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end='', flush=True)

6.2 Java调用示例

step1、安装 SDK Maven

java 复制代码

<dependency>
    <groupId>ai.z.openapi</groupId>
    <artifactId>zai-sdk</artifactId>
    <version>0.0.6</version>
</dependency>

step2、Gradle (Groovy)

java 复制代码

implementation 'ai.z.openapi:zai-sdk:0.0.6'

step3、基础调用

java 复制代码

import ai.z.openapi.ZhipuAiClient;
import ai.z.openapi.service.model.ChatCompletionCreateParams;
import ai.z.openapi.service.model.ChatCompletionResponse;
import ai.z.openapi.service.model.ChatMessage;
import ai.z.openapi.service.model.ChatMessageRole;
import ai.z.openapi.service.model.ChatThinking;
import java.util.Arrays;

public class BasicChat {
    public static void main(String[] args) {
        // 初始化客户端
        ZhipuAiClient client = ZhipuAiClient.builder()
            .apiKey("your-api-key")
            .build();

        // 创建聊天完成请求
        ChatCompletionCreateParams request = ChatCompletionCreateParams.builder()
            .model("glm-4.6")
            .messages(Arrays.asList(
                ChatMessage.builder()
                    .role(ChatMessageRole.USER.value())
                    .content("作为一名营销专家，请为我的产品创作一个吸引人的口号")
                    .build(),
                ChatMessage.builder()
                    .role(ChatMessageRole.ASSISTANT.value())
                    .content("当然，要创作一个吸引人的口号，请告诉我一些关于您产品的信息")
                    .build(),
                ChatMessage.builder()
                    .role(ChatMessageRole.USER.value())
                    .content("智谱AI开放平台")
                    .build()
            ))
            .thinking(ChatThinking.builder().type("enabled").build())
            .maxTokens(65536)
            .temperature(1.0f)
            .build();

        // 发送请求
        ChatCompletionResponse response = client.chat().createChatCompletion(request);

        // 获取回复
        if (response.isSuccess()) {
            Object reply = response.getData().getChoices().get(0).getMessage();
            System.out.println("AI 回复: " + reply);
        } else {
            System.err.println("错误: " + response.getMsg());
        }
    }
}

step4、流式调用

java 复制代码

import ai.z.openapi.ZhipuAiClient;
import ai.z.openapi.service.model.ChatCompletionCreateParams;
import ai.z.openapi.service.model.ChatCompletionResponse;
import ai.z.openapi.service.model.ChatMessage;
import ai.z.openapi.service.model.ChatMessageRole;
import ai.z.openapi.service.model.ChatThinking;
import ai.z.openapi.service.model.Delta;
import java.util.Arrays;

public class StreamingChat {
    public static void main(String[] args) {
        // 初始化客户端
        ZhipuAiClient client = ZhipuAiClient.builder()
            .apiKey("your-api-key")
            .build();

        // 创建流式聊天完成请求
        ChatCompletionCreateParams request = ChatCompletionCreateParams.builder()
            .model("glm-4.6")
            .messages(Arrays.asList(
                ChatMessage.builder()
                    .role(ChatMessageRole.USER.value())
                    .content("作为一名营销专家，请为我的产品创作一个吸引人的口号")
                    .build(),
                ChatMessage.builder()
                    .role(ChatMessageRole.ASSISTANT.value())
                    .content("当然，要创作一个吸引人的口号，请告诉我一些关于您产品的信息")
                    .build(),
                ChatMessage.builder()
                    .role(ChatMessageRole.USER.value())
                    .content("智谱AI开放平台")
                    .build()
            ))
            .thinking(ChatThinking.builder().type("enabled").build())
            .stream(true)  // 启用流式输出
            .maxTokens(65536)
            .temperature(1.0f)
            .build();

        ChatCompletionResponse response = client.chat().createChatCompletion(request);

        if (response.isSuccess()) {
            response.getFlowable().subscribe(
                // Process streaming message data
                data -> {
                    if (data.getChoices() != null && !data.getChoices().isEmpty()) {
                        Delta delta = data.getChoices().get(0).getDelta();
                        System.out.print(delta + "\n");
                    }
                },
                // Process streaming response error
                error -> System.err.println("\nStream error: " + error.getMessage()),
                // Process streaming response completion event
                () -> System.out.println("\nStreaming response completed")
            );
        } else {
            System.err.println("Error: " + response.getMsg());
        }
    }
}

6.3 cURL调用示例

1.基础调用

cpp 复制代码

curl -X POST "https://open.bigmodel.cn/api/paas/v4/chat/completions" \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer your-api-key" \
    -d '{
        "model": "glm-4.6",
        "messages": [
        {
            "role": "user",
            "content": "作为一名营销专家，请为我的产品创作一个吸引人的口号"
        },
        {
            "role": "assistant",
            "content": "当然，要创作一个吸引人的口号，请告诉我一些关于您产品的信息"
        },
        {
            "role": "user",
            "content": "智谱AI 开放平台"
        }
            ],
            "thinking": {
            "type": "enabled"
        },
            "max_tokens": 65536,
            "temperature": 1.0
        }'

2.流式调用

bash 复制代码

curl -X POST "https://open.bigmodel.cn/api/paas/v4/chat/completions" \
    -H "Content-Type: application/json" \
    -H "Authorization: Bearer your-api-key" \
    -d '{
        "model": "glm-4.6",
        "messages": [
        {
            "role": "user",
            "content": "作为一名营销专家，请为我的产品创作一个吸引人的口号"
        },
        {
            "role": "assistant",
            "content": "当然，要创作一个吸引人的口号，请告诉我一些关于您产品的信息"
        },
        {
            "role": "user",
            "content": "智谱AI开放平台"
        }
            ],
            "thinking": {
            "type": "enabled"
        },
            "stream": true,
            "max_tokens": 65536,
            "temperature": 1.0
        }'

6 开源生态与未来展望

6.1 开源战略：构建开放技术生态

智谱将2025年定为"开源年"，全面开放高性能产品和模型。GLM-4.5（355B）和GLM-4.5-Air（106B）已全面开源，相关技术报告和训练数据也向社区开放。

这种开源策略促进了技术的快速传播与交流，让更多开发者能够基于先进模型进行二次创新。正如张鹏所言："开源与否、免费与否已非关键问题。无论开源还是闭源，目标都是加速大模型落地应用并创造价值，商业模式只是实现路径。"

6.2 未来方向：通向AGI的路径

从技术演进角度看，大模型正逐渐从"通用知识库"向"通用问题求解器"演进，目标是实现通用人工智能（AGI）。这要求模型不仅要在单一任务中做到最好，还要像人类一样具备复杂问题求解、泛化能力和自我提升能力。

智谱提出了清晰的AGI发展路线图：从L1预训练模型到L2对齐与推理能力，再到L3工具使用及Agent系统，每一步都是有序递进。GLM-4.5/4.6系列正是这一路线图的具体实践，展示了中国在大模型技术上的创新实力。

随着《关于深入实施"人工智能+"行动的意见》的深入实施，产业智能体将迎来更广阔的应用场景。从智能体的技术突破，到智联网的未来探索，AI正成为社会高质量发展的强劲动能。

结语：中国大模型的创新之路

GLM-4.5/4.6系列代表了当前国产大模型的最高水平，其ARC三位一体能力模型、高效的训练策略和优秀的成本控制，展示了中国AI企业在技术创新与商业落地平衡上的独特智慧。

随着开源生态的完善和国产算力基础的夯实，中国有望在全球AI竞争中走出差异化路线。GLM系列模型的持续进化，不仅为开发者提供了强大工具，也为全球AI技术发展提供了新思路和新路径。

未来，随着多模态能力的加强和智能体技术的成熟，GLM系列模型有望在更多复杂场景中展现价值，推动人工智能从"工具"向真正"伙伴"的进化，最终实现通用人工智能的宏伟目标。

以下是针对GLM-4.6模型的十个核心关键词及其详细解释，这些术语将帮助您更深入地理解这一先进大模型的技术内涵和行业意义。

关键词	解释
ARC三位一体能力模型	智谱提出的核心架构理念，强调智能体（Agentic）、推理（Reasoning）、编码（Coding）三种能力的深度融合与协同。这使得GLM-4.6不再是单一功能的模型，而成为一个能自主思考、规划并执行复杂任务的通用问题求解器。
FP8+Int4混合量化	一种应用于国产AI芯片（如寒武纪）的先进模型压缩与加速技术。`FP8`用于存储模型权重，`Int4`用于加速推理过程中的缓存计算。该方案能在几乎不损失模型精度的前提下，大幅降低推理成本和显存占用，是GLM-4.6能在国产算力平台上高效运行的关键。
200K上下文窗口	模型能一次性处理和记忆的文本长度上限，约合15万汉字。GLM-4.6将窗口从128K扩展至200K，使其能够处理整本图书、大型代码库或极长的对话历史。其技术核心是分段RoPE和局部注意力机制，实现了长文本范围内的"无损扩展"。
工具调用与搜索智能体	模型在推理过程中主动使用外部工具的能力。例如，GLM-4.6可以在思考时插入 `<search>`或 `<execute>`命令，调用搜索引擎查询实时信息，或执行代码来验证结果。这实现了"边想边干"的智能体高级形态，是其推理能力的重要体现。
Coding Plan订阅制	智谱推出的一种针对编码场景的商业化套餐模式。用户每月支付固定费用（最低20元），即可在一定使用量内畅享GLM-4.6的编码能力。这种模式以极低的门槛（价格约为Claude同等级服务的1/7）为开发者提供了强大的AI编程助手。
幻觉率	衡量大模型"胡编乱造"倾向的指标。在模型生成的内容中，事实性错误或虚构信息的比例。GLM-4.6通过优化训练将幻觉率从前代的11.2%降至7.8%，显著提高了代码生成和问答内容的准确性和可靠性。
Token效率	衡量模型"性价比"的关键指标，指完成特定任务所需消耗的Token数量。GLM-4.6的平均Token消耗比GLM-4.5降低了30%以上。这意味着用更少的"计算燃料"就能完成相同任务，直接为用户降低了使用成本。
74个真实场景编程任务	智谱用于评估GLM-4.6代码能力的核心测试集。与仅在公开基准（如HumanEval）上测试不同，该测试集在真实的Claude Code环境中设置了74个涵盖前端、后端、算法等领域的实际开发任务，更能反映模型的实战水平。GLM-4.6在该测试中表现优异。
智能体框架	能够承载和运行AI智能体的软件环境或平台。GLM-4.6在各类智能体框架中展现出更强的集成度和有效性，能够更好地理解复杂指令、规划任务步骤并调用工具执行，从而完成如PPT生成、全栈开发等复杂任务。
国产芯片适配	GLM-4.6完成了与寒武纪、摩尔线程等国产AI芯片的深度适配和优化。这标志着国产大模型与国产算力芯片的协同发展取得重大突破，为在特定环境下构建自主可控的AI技术栈奠定了坚实基础。

希望这些详细的解释能帮助您更好地撰写技术文章。如果您对某个技术点需要更深入的探讨，欢迎评论区留言交流学习。