GLM-5:从 Vibe Coding 走向 Agentic Engineering 的全栈路线图

GLM-5:从 Vibe Coding 走向 Agentic Engineering 的全栈路线图

核心结论先行

这篇论文最重要的信号只有一句话: GLM-5 不是单纯把参数放大,而是通过 DSA 稀疏注意力 + 异步 RL 基建 + 代理式环境扩展,系统性解决了"长上下文 + 长链任务 + 真实软件工程"三大瓶颈。整套路线把"能写代码"推进到了"能做工程"。


一张图理解 GLM-5 全流程

图解:整体训练流程从 Base → Mid → Post。Base/ Mid 聚焦长上下文与代理任务能力,Post 通过多阶段 RL 对齐与蒸馏,避免能力回退。

关键逻辑

  1. Base / Mid Training :把上下文从 4K 拉到 200K,专门引入长链 Agent 数据。
  2. Post-Training :SFT → Reasoning RL → Agentic RL → General RL → On-Policy Distill。
  3. 目标 :稳定推理 + 真实工程 + 长链任务一致性。

训练后阶段:GLM-5 的"灵魂工程"

1. SFT:三类数据 + 三种思维模式

  • General Chat
  • Reasoning
  • Coding & Agent

核心变化是 思维控制机制

图解:模型支持三种思考模式:交错思考(每一步前推理)、保留思考(跨回合复用)、回合级开关(按需启停)。

关键价值

  • 交错思考保证每一步行动前都有推理。
  • 保留思考让长链任务不丢上下文。
  • 回合级开关控制成本与稳定性。

2. Reasoning RL:GRPO + IcePop 去"训练-推理分布偏差"

论文给出的核心公式如下:

L ( θ ) = − E x , y i ∼ π infer [ 1 G ∑ i = 1 G 1 ∣ y i ∣ ∑ t = 1 ∣ y i ∣ pop ⁡ ( ρ i , t , 1 / β , β ) ⋅ min ⁡ ( r i , t A ^ i , t , clip ⁡ ( r i , t ) A ^ i , t ) ] \mathcal{L}(\theta)= -\mathbb{E}{x, y_i \sim \pi^{\text{infer}}} \left[ \frac{1}{G}\sum{i=1}^G \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \operatorname{pop}(\rho_{i,t},1/\beta,\beta) \cdot \min(r_{i,t}\hat{A}{i,t}, \operatorname{clip}(r{i,t})\hat{A}_{i,t}) \right] L(θ)=−Ex,yi∼πinfer G1i=1∑G∣yi∣1t=1∑∣yi∣pop(ρi,t,1/β,β)⋅min(ri,tA^i,t,clip(ri,t)A^i,t)

其中 mismatch 比例:

ρ i , t = π θ old train ( y i , t ∣ x , y i , < t ) π θ old infer ( y i , t ∣ x , y i , < t ) \rho_{i,t}= \frac{ \pi_{\theta_{\text{old}}}^{\text{train}}(y_{i,t}|x,y_{i,<t}) }{ \pi_{\theta_{\text{old}}}^{\text{infer}}(y_{i,t}|x,y_{i,<t}) } ρi,t=πθoldinfer(yi,t∣x,yi,<t)πθoldtrain(yi,t∣x,yi,<t)

核心点

  • 训练策略与推理策略分开建模。
  • IcePop 直接削掉 mismatch 太大的样本,防止 RL 崩盘。

3. DSA RL:稳定性来自"确定性 Top-k"

DSA 引入 indexer 做稀疏注意力检索。这里最关键的是 Top-k 必须可复现

  • CUDA Top-k 随机性会导致 RL 崩盘。
  • 直接用 torch.topk 虽慢但稳定。
  • indexer 参数默认冻结,避免训练震荡。

4. Agentic RL:异步训练 + TITO + 双侧重要性采样

异步训练是为了"长链任务不让 GPU 空转"。关键机制:

  • TITO(Token-in Token-out)

    避免再分词错位,保障动作对齐。

  • 双侧裁剪的 token-level IS

r t ( θ ) = exp ⁡ ( log ⁡ π θ − log ⁡ π rollout ) r_t(\theta)=\exp(\log\pi_\theta - \log\pi_{\text{rollout}}) rt(θ)=exp(logπθ−logπrollout)

f ( x ) = { x , 1 − ϵ ℓ < x < 1 + ϵ h 0 , otherwise f(x)= \begin{cases} x, & 1-\epsilon_\ell < x < 1+\epsilon_h \\ 0, & \text{otherwise} \end{cases} f(x)={x,0,1−ϵℓ<x<1+ϵhotherwise

好处 :避免维护历史策略快照,降低开销。


5. General RL:三维优化目标 + 混合奖励

目标拆成三层:

  • Foundational correctness
  • Emotional intelligence
  • Task-specific quality

奖励系统融合:

  • Rule-based
  • ORM(低方差但易被 hack)
  • GRM(高方差但鲁棒)

6. On-Policy Cross-Stage Distillation

最后用蒸馏恢复前面 SFT/RL 的能力,避免被后续 RL 冲掉。

A ^ i , t = sg [ log ⁡ π θ teacher infer ( y i , t ∣ x , y i , < t ) π θ train ( y i , t ∣ x , y i , < t ) ] \hat{A}{i,t}=\text{sg}\left[\log\frac{\pi{\theta_{\text{teacher}}}^{\text{infer}}(y_{i,t}|x,y_{i,<t})}{\pi_\theta^{\text{train}}(y_{i,t}|x,y_{i,<t})}\right] A^i,t=sg[logπθtrain(yi,t∣x,yi,<t)πθteacherinfer(yi,t∣x,yi,<t)]


Agentic Engineering:从"人写代码"到"AI 自己迭代"

图解:模型在 8 个 agentic / coding / reasoning benchmark 上对比。横向主要是多任务能力,纵向是综合性能。

核心理念:

  • Vibe coding = 人驱动
  • Agentic engineering = AI 自主规划、实现、修正

关键工程基础设施:slime 框架

1. 可扩展 Rollout

  • Rollout 可自定义逻辑
  • HTTP 接口使外部 agent 框架可直接接入

2. Tail Latency 优化

  • FP8 rollout
  • MTP
  • Prefill-Decode 分离

3. 容错

  • 心跳机制 + 自动下线故障节点

环境规模化:SWE、终端、搜索、Slide

1. SWE 环境

  • 真实 issue/PR
  • 10k+ 可执行环境
  • 9 种语言覆盖

2. Terminal 环境

  • 真实 seed + web corpus 生成
  • Harbor format + 自验证
  • 构建 WKG
  • 多跳链式问题
  • 三阶段过滤保证难度

图解:keep-recent-k + discard-all 组合,在上下文预算下显著提升 BrowseComp 任务得分。


Slide 生成:奖励分层 + 防 hack

图解:展示 reward hacking 现象。通过运行时渲染属性 + 视觉感知约束解决"伪合格"。

多级奖励:

  • Level-1:静态 HTML 属性
  • Level-2:运行时布局约束
  • Level-3:视觉感知信号

评测结果:GLM-5 的真实"定位"

图解:Artificial Analysis Intelligence Index v4.0,GLM-5 进入 open-weight 最高分区间。

图解:LMArena Text Arena 中的排名,GLM-5 为开源第一梯队。

图解:LMArena Code Arena 排名,GLM-5 在开源模型中领先。


CC-Bench-V2:工程级真实性能

图解:前端/后端/长链任务三类工程基准。GLM-5 在 BSR 与 CSR 上明显改善,但 ISR 仍弱于最强闭源。


主要技术贡献总结

  1. DSA 稀疏注意力 :长上下文成本大幅降低。
  2. 异步 Agentic RL 基建 :训练吞吐稳定性全面提升。
  3. TITO + 双侧裁剪 IS :解决异步 RL off-policy 稳定问题。
  4. Cross-stage Distillation :多阶段 RL 不再"能力丢失"。
  5. Chinese GPU 全栈适配 :从 kernel 到 inference 完整打通。

结论

GLM-5 的意义不是"又一个 SOTA",而是从 模型能力 → 系统工程能力 的跃迁。

它真正把 Agentic Engineering 推向可复用、可扩展、可落地的工程范式:

  • 长上下文稳定
  • 多任务不互相伤害
  • 环境规模化闭环

这套路线对开源生态的最大价值,是明确了"如何用工程方式训练出可靠代理"。


本文参考自 GLM-4.5: Open Foundation Models for Reasoning, Coding, and Agentic tasks

相关推荐
有为少年1 小时前
Monarch矩阵:从设计直觉到数学推导与实际应用
人工智能·深度学习·学习·线性代数·机器学习·计算机视觉·矩阵
hughnz1 小时前
Equinor的AI野心
人工智能·能源
@insist1231 小时前
软考-软件设计师-数据表示核心考点详解:从进制转换到 IEEE 754 标准
java·数据结构·算法
weixin_446260851 小时前
win11本地部署openclaw实操第3集-用wsl方式部署
人工智能
NGC_66111 小时前
【无标题】
数据结构·算法·排序算法
NGC_66111 小时前
快速排序算法
数据结构·算法·排序算法
tq10861 小时前
Bash is NOT Everything
人工智能
云飞云共享云桌面1 小时前
10人SolidWorks设计团队如何提升SolidWorks软件利用率
大数据·linux·运维·服务器·网络·人工智能
机器视觉的发动机1 小时前
图像处理-机器视觉算法中的数学基础
开发语言·人工智能·算法·决策树·机器学习·视觉检测·机器视觉