GLM5+minimax2.5+qwen3.5技术报告对比学习

GLM-5技术报告深度解读：从"氛围编程"到"智能体工程"的范式跃迁

2026年2月，智谱AI正式发布并开源了其第五代旗舰基座模型GLM-5。这份技术报告不仅展示了一个参数规模达744B（激活参数40B）的庞大模型，更揭示了中国大模型研发从"炫技"到"工程化成熟"的战略转变。其核心目标明确：推动AI编程范式从依赖人类提示的 "氛围编程（Vibe Coding）" ，升级为AI能自主规划、执行、迭代复杂任务的 **"智能体工程（Agentic Engineering）"** 。

一、四大核心技术突破：构建"工程级智能"的基石

GLM-5的性能飞跃并非源于简单的参数堆砌，而是依托于一套完整的系统性工程创新。

DSA稀疏注意力：长上下文的"效率革命"
- 核心原理 ：传统Transformer注意力机制的计算复杂度为O(n²)，处理200K长序列时算力消耗巨大。GLM-5集成的**DeepSeek稀疏注意力（DSA）** 机制，通过一个轻量级"索引器"动态筛选出最相关的关键Token（如Top-2048），仅对这部分进行计算。
- 关键效果 ：在保持长上下文理解能力几乎无损的前提下，将长序列注意力计算量降低1.5-2倍 ，推理成本最高可降低50%。这使得744B参数的模型能以可接受的成本处理数百页文档或整个代码仓库。
Slime异步强化学习框架：破解长周期任务训练瓶颈
- 传统痛点：训练能修Bug、操作终端的智能体时，一个任务可能耗时数小时，导致训练GPU长期空转等待。
- GLM-5解法 ：全新构建的 "Slime"框架 将生成（推理）与训练物理解耦 。推理引擎持续在真实环境中探索并生成任务轨迹，打包后异步发送给训练引擎更新参数，二者互不等待，极大提升了GPU利用率和训练吞吐量。备注：slime已开源，清华共建，在真实环境中探索并生成任务轨迹，如何在线判断是否成功？见第四点。暂不支持华为卡
- 稳定性保障 ：为解决异步带来的策略滞后问题，团队引入了Token-in-Token-out（TITO）网关 确保奖励信号精确对齐，并采用双侧重要性采样等技术防止训练崩溃。
异步Agent RL算法：赋予模型"自主进化"能力
- 该算法针对动态环境（如软件工程）深度优化，使模型能够从持续数小时的多步交互中学习复杂的规划与自我纠错。这意味着GLM-5不仅能执行指令，还能在任务执行中根据反馈调整策略，像人类工程师一样迭代优化。
全栈国产算力适配：构建自主可控的软硬件闭环
- GLM-5从发布伊始便原生深度适配华为昇腾、摩尔线程、海光、寒武纪等七大主流国产芯片平台。
- 适配并非"能跑就行"，而是涉及KV缓存调度、通信机制、混合精度训练、INT4量化感知训练 等从底层算子到上层框架的全栈优化。报告称，经此优化，单台国产算力节点的性能可媲美两台国际主流GPU集群，长序列处理成本降低50%。

二、GLM-5稀疏注意力的核心架构

参考： https://blog.csdn.net/weixin_43107715/article/details/158074555

GLM-5采用局部密集+全局稀疏的双向动态路由架构，核心设计如下：

序列分块处理：将输入序列划分为固定大小的局部块，块大小支持2048/4096/8192三种配置，适配不同场景需求
局部密集注意力：每个token仅与同一块内的所有token进行全量注意力计算，保证局部语义的完整性与连贯性
全局稀疏动态路由：通过预训练习得的语义相似度算法，为每个块筛选出Top-K的全局关键块，仅与关键块内的token进行跨块注意力计算
场景自适应优化：预训练阶段针对自然语言、代码、长文档、表格等不同数据类型，完成了稀疏策略的自适应学习，开箱即用即可达到90%以上的最优效果

核心技术优势

复杂度优化：将注意力计算复杂度从O(n²)降至O(n log n)，超长上下文场景下的性能提升显著
精度无损保证：通过双向动态路由机制，关键语义信息100%进入全局注意力计算，2M token场景下上下文召回率稳定在98.2%以上
全场景适配：针对代码场景新增AST语法树感知路由，优先关注代码的结构信息，解决长代码生成的语法断裂问题

备注：DSA介绍

DSA的核心思想非常直观：并非所有历史Token都同等重要。因此，它采用两阶段工作流，将"选择重要Token"与"进行精细计算"解耦。

闪电索引器（Lightning Indexer） ：这是一个轻量级、低开销的筛选模块 。对于当前要处理的查询Token，索引器会快速扫描所有历史Token，通过一个简化的计算（使用ReLU激活函数 和FP8低精度）为每个历史Token生成一个相关性得分。其设计极为高效，头数少、维度低，计算开销相比主注意力可忽略不计。
细粒度Token选择 ：根据闪电索引器打出的分数，系统仅筛选出得分最高的Top-k个Token （在论文中k固定为2048 ）。这意味着当处理128K序列时，只有约**1.6%** 的Token会进入下一阶段。
稀疏注意力计算 ：模型的主注意力模块仅对上述筛选出的k个Token 进行完整的键值（KV）交互和注意力计算。这使得核心计算复杂度从O(L²)骤降至O(Lk)，其中k是一个远小于L的固定值，从而实现了数量级的速度提升。

DSA并非孤立存在，而是与DeepSeek已有的高效架构深度集成：

基于MLA（多头潜在注意力）：DSA直接在MLA框架上实例化。MLA本身已通过KV压缩技术大幅降低了推理显存，DSA则在此基础上攻克了计算量的瓶颈。

三、编程性能超20%提升的技术支撑

GLM-5在代码生成领域的性能突破，来自于预训练、微调、架构三个层面的全链路优化，核心技术包括：

2.2.1 高质量代码语料预训练优化

构建了1.2T token的高质量多语言代码语料库，覆盖28种编程语言，包含工业级业务代码、开源项目全量提交记录、编译器报错与修复语料

语料清洗阶段引入代码可运行性校验，过滤无法通过语法检查、存在编译错误的低质量语料，有效语料占比提升至92%

新增中文业务场景代码语料，占比达到35%，解决了通用模型中文需求理解与代码生成的适配性问题

2.2.2 代码执行反馈微调（EFFT）

传统指令微调仅关注代码的语法正确性，无法保证运行效果。GLM-5采用代码执行反馈微调机制：

模型生成代码后，自动执行静态语法检查、单元测试运行、动态调试，获取全维度的执行反馈

基于执行反馈，迭代优化模型的代码生成逻辑，重点解决边界条件处理、异常捕获、业务逻辑漏洞等问题

引入人类开发者的CR反馈数据，对齐工业级编码规范与最佳实践，提升代码的可维护性与安全性

2.2.3 代码场景专用架构优化

在稀疏注意力架构中新增AST语法树感知分支，在注意力路由阶段优先识别代码的函数定义、变量声明、调用关系等结构信息，保证长代码生成的语法完整性

新增代码专用的前向传播分支，针对代码的序列特征做了卷积核优化，提升代码语法结构的识别准确率优化了工具调用格式，与主流开发工具、编译器、调试器深度适配，支持代码生成、执行、调试的全流程闭环

四、GLM5 在真实环境中探索并生成任务轨迹，用于更新参数，不通过人类如何自己在线判断是否成功？

GLM-5 在真实环境中探索并生成任务轨迹后，不依赖人类在线判断 ，而是通过一套自动化的环境反馈机制 来判定成功与否。这套机制的核心是 "可验证环境（Verifiable Environment）"，即环境本身具备客观的评判标准，能够像机器裁判一样自动给出"奖励"或"惩罚"信号。

以下是 GLM-5 用于自动判断任务成功的具体机制：

1. 软件工程环境：单元测试与编译验证

在代码生成和修复任务中，GLM-5 通过构建可执行沙盒来进行自动验证。模型生成的代码或修改（Task Trajectory）会被提交到真实的代码仓库环境中执行。

判断标准 ：运行单元测试（Unit Test）。
自动反馈：如果代码通过了所有预设的测试用例，环境自动返回"成功"信号（高奖励）；如果编译失败或测试未通过，环境返回"失败"信号（低奖励或惩罚）。
来源依据：GLM-5 构建了超过 10,000 个可验证的软件工程环境，覆盖 Python、Java 等 9 种主流编程语言，每个环境都支持从依赖安装到测试解析的全流程自动化。

2. 终端环境：任务执行结果验证

对于操作系统终端任务（如文件操作、系统配置），GLM-5 采用 Docker 化执行环境。

判断标准：执行结果是否符合预期（Expected Outcome）。
自动反馈 ：模型执行命令后，环境会自动检查文件是否创建、内容是否正确、进程是否启动等。例如，如果任务是"创建一个名为 test.txt的文件"，环境会自动检查该文件是否存在并验证内容，无需人工介入。

3. 结构化文档生成：三级奖励体系

在生成 PPT 或 HTML 等结构化文档时，GLM-5 采用了一套分层级的自动奖励机制来替代人工审美判断：

Level-1（静态规则）：自动检查代码语法、布局间距、字体颜色等基础属性，利用规则引擎识别幻觉与重复图片。
Level-2（运行布局）：通过分布式渲染，抓取渲染后 DOM 节点的宽高、边界框等真实几何指标，检测排版冲突。
Level-3（视觉感知）：直接从视觉层面检测异常空白或构图失衡，确保视觉舒适度。
自动反馈：通过这套自动化评分体系，模型生成的 PPT 中严格符合 16:9 宽高比的比例从 40% 提升至 92%，完全由机器判断"美观度"。

4. 商业模拟环境：收益量化

在商业模拟任务（如 Vending-Bench 2 自动售货机经营）中，GLM-5 通过模拟器进行判断。

判断标准：最终的账户余额或收益。
自动反馈：模型在模拟环境中经营一年后，系统自动计算总收益（如 $4,432），收益越高代表任务越成功。

总结

GLM-5 通过构建 "可验证环境" ，将人类的主观判断转化为客观的自动化测试、规则引擎和模拟器信号。这种机制使得 Slime 框架能够在无人干预的情况下，让模型在真实环境中不断试错、自我优化，最终学会如何正确地完成任务。

备注：自动判断是否成功是未来一个非常重要的事情

MiniMax M2.5：原生Agent生产级模型的技术突破

MiniMax M2.5是2026年2月发布的新一代文本模型，定位为"原生Agent生产级模型"。其性能在编程、工具调用、办公等生产力场景达到或刷新行业SOTA，并在成本控制上实现革命性突破（输入约0.3美元/百万Token，输出约2.4美元/百万Token）。其性能大幅提升的核心原因源于以下五大技术支柱：

一、架构革新：极端稀疏的MoE设计

总参230B，激活仅10B：采用混合专家模型（MoE）架构，总参数达2300亿，但推理时仅激活约100亿参数。这种"极端稀疏性"设计在保持强大推理能力的同时，极大降低了计算和显存开销。
线性注意力机制 ：核心采用改进的线性注意力（如Lightning Attention），通过数学变换去除Softmax的非线性瓶颈，利用矩阵结合律将计算复杂度从O(L²)降至O(L) ，实现了约40%的计算量减少和吞吐量的大幅提升。线性注意力和传统注意力层数比为7:1

二、训练革命：自研Forge异步RL框架

备注：forge框架未开源

架构彻底解耦：Forge框架通过引入中间件抽象层和Gateway Server，将Agent执行逻辑与底层训练/推理引擎物理分离。Data Pool异步收集训练轨迹，实现了"生成"与"训练"的解耦，无需修改Agent代码即可接入数百种工具进行训练。
40倍训练加速 ：关键创新在于 Prefix Tree Merging 策略。它将多轮任务的线性序列样本重构为树形结构，消除重复的上下文前缀，从而实现了约40倍的训练加速，并显著降低了显存占用。
复合奖励机制 ：针对Agent长轨迹任务，设计了过程奖励、任务完成时间奖励、Reward-to-Go 等复合奖励函数。这不仅缓解了长程信用分配难题，还将"任务真实耗时"纳入优化目标，引导模型在效果与响应速度间取得最佳平衡。

三、推理优化：极致吞吐与成本控制

100+ TPS超高吞吐：M2.5-lightning版本支持每秒100个Token以上的输出速度，约为主流模型的2倍。在8张H200的测试中，能维持约2500 tok/s/GPU的稳定吞吐。
显存与量化优化：通过KV缓存复用机制，在多轮Agent交互中共享历史上下文，减少重复计算。同时，采用INT4权重量化（AWQ算法），在精度损失<2%的前提下，将10B模型的显存占用从20GB（FP16）降至8GB，使16GB显存消费级显卡也能流畅运行。

四、能力演进：原生Spec与多语言泛化

像架构师一样思考 ：模型演化出原生Spec（规格说明书）能力。在动手编码前，会主动以架构师视角拆解功能、结构和UI设计，进行完整规划，覆盖从系统设计（0-1）到代码审查（90-100）的全开发生命周期。
强大的多语言与工具调用：在超过10种编程语言（Go, Rust, Python等）和数十万个真实环境中训练。在BrowseComp、Wide Search等Agent任务中，能以比上一代少约20%的轮次消耗取得更优结果，搜索与工具调用路径更加高效。

五、数据与生态：真实环境驱动进化

大规模Agent RL训练 ：性能跃迁（如SWE-Bench Verified分数从69.4提升至80.2）主要归因于在数十万个真实复杂环境中进行的大规模Agent强化学习（RL Scaling）。这种训练方式让模型内化了任务分解与执行的思维模式。
引爆Agent生态：其"高性能+超低成本"的组合精准击穿了Agent工作流的"成本-能力"临界点。发布后迅速被Kilo Code、OpenClaw等20多个主流开源框架集成，周调用量突破3T Token，推动了Agent应用从演示走向规模化落地。

总结：MiniMax M2.5的性能飞跃并非单一技术优化的结果，而是一次从底层架构、训练范式、推理工程到能力定义的系统性重构。它通过稀疏MoE与线性注意力提升计算效率，通过Forge框架实现训练革命，通过复合奖励优化Agent行为，最终以极致的成本效益比，为AI Agent的规模化商业落地提供了关键基础设施。

六、改进线性注意力机制

一、传统注意力（Softmax Attention）的瓶颈

传统 Transformer 使用的注意力机制，其计算复杂度是 O(L²)，其中 L 是序列长度。这是因为对于序列中的每一个 Token，它都需要与序列中所有其他 Token 进行交互（计算注意力分数）。这导致：

计算量巨大：处理长文本（如长文档、代码库、多轮对话）时，计算开销呈平方级增长。
推理速度慢：生成每个新 Token 都需要重新计算整个序列的注意力，限制了吞吐量。
显存占用高：需要存储庞大的注意力矩阵，制约了可处理的上下文长度。

二、线性注意力（Linear Attention）的核心思想

线性注意力的目标是将计算复杂度从 O(L²) 降低到 O(L) ，实现"线性"增长。其核心秘诀在于通过巧妙的数学变换，去除标准注意力中的 Softmax 非线性瓶颈，从而利用矩阵乘法的结合律进行重组计算。

一个简单的类比：

传统注意力 ：计算 (Q * K^T) * V，其中 Q*K^T是一个 L×L 的大矩阵，必须先算出来。
线性注意力 ：通过数学变换，将其重写为 Q * (K^T * V)。K^T * V是一个固定大小（d×d）的矩阵，与序列长度 L 无关。这样，计算就不再依赖于 L²。

K^T * V复杂度计算

结论先行 ：计算 K^T * V这一步的复杂度是 O(L × d²) ，其中 L 是序列长度，d 是特征维度（head维度） 。它确实与 L 有关，但不再是 L²，而是线性于 L。

详细计算过程与复杂度分析：

让我们用矩阵维度来清晰地跟踪整个过程：

定义维度：
- 假设序列长度（Token数量）为 L。
- 假设每个注意力头的特征维度为 d（例如 d=128）。
- 那么，K和 V矩阵的维度都是 L × d。
- K的转置 K^T的维度是 d × L。
计算 K^T * V：
- 进行矩阵乘法：(d × L) * (L × d)。
- 根据矩阵乘法规则，结果矩阵的维度是 d × d。这就是您提到的"固定大小的矩阵"。
- 计算量 ：结果矩阵有 d × d个元素，每个元素的计算需要做 L 次乘加运算（即 L维向量的点积）。因此，总计算次数为 d² × L。
- 复杂度 ：记为 O(L × d²)。
后续计算 Q * (K^T V)：
- Q的维度也是 L × d ，(K^T V)的维度是 d × d。
- 矩阵乘法 (L × d) * (d × d)的结果维度是 L × d。
- 计算量 ：结果矩阵有 L × d个元素，每个元素需要 d 次乘加运算。因此，总计算次数为 L × d × d = L × d²。
- 复杂度 ：同样为 O(L × d²)。

为什么线性注意力不如传统注意力效果？

dxd的维度不如Lxd的表达丰富，因为d远小于L，另外：

传统Softmax注意力 ：Softmax函数是一个非线性 的指数归一化操作。它具有"放大"效应，会让最大的注意力分数变得极大，同时将较小的分数压得极低。这形成了动态的、内容感知的稀疏性。模型可以像聚光灯一样，在众多Token中精准地聚焦于最相关的几个（即"胜者通吃"），忽略无关信息。这种能力对于理解复杂逻辑、进行精确指代和长程推理至关重要。
线性注意力 ：其核心是线性的核函数近似。它失去了这种强大的非线性放大能力。注意力分布往往更加"平滑"和"稠密"，每个Token或多或少都能获得一些注意力。这好比把聚光灯换成了散光灯，虽然也能照亮全场，但缺乏聚焦关键细节的能力，可能导致模型在处理需要精确判断的复杂任务时表现力下降。其性能高度依赖于核函数的设计，效果上的妥协换来效率上的巨大提升。

未来发展变化：

更先进的核函数 ：如Lightning Attention、FlashAttention-3中采用的核函数等，正在设计得更精巧，以更好地近似Softmax的动态稀疏性。
混合架构 ：像MiniMax M2.5这样的模型，并非在所有层、所有头上都使用线性注意力。它可能采用混合模式，或在浅层使用线性注意力捕获局部信息，在深层保留传统注意力进行复杂推理。

三、MiniMax M2.5 的"改进"体现在何处？

M2.5 并非使用最原始的线性注意力，而是集成了如 Lightning Attention 等前沿改进方案，主要优化点包括：

稳定的核函数设计：
- 原始线性注意力使用简单的内积作为相似度函数，表达能力可能受限。改进方案会设计一个可学习的、稳定的核函数来隐式地模拟 Softmax 的效果，确保模型在长程建模和数值稳定性上不输于传统注意力。
递归计算与状态记忆：
- 利用线性注意力可写成递归形式的特性，M2.5 在推理时可以将之前的计算结果作为一个"状态"缓存下来。
- 带来的好处 ：当生成下一个 Token 时，无需重新计算整个历史序列的注意力，只需用新 Token 的 Query 去更新这个状态即可。这极大地加速了自回归生成的速度，也是其能达到超高吞吐（100+ TPS）的关键。
与 MoE 架构的协同优化：
- M2.5 的极端稀疏 MoE（230B总参，10B激活）本身已大幅减少了计算量。线性注意力在此基础上，进一步降低了每个专家内部的核心计算开销。
- 两者结合，实现了"双重降本增效"：MoE 减少了激活的参数量，线性注意力减少了每个参数参与的计算量。

Lightning Attention核心设计：分而治之的"块内-块间"策略

Lightning Attention（特指其成熟版本 Lightning Attention-2，由 OpenNLPLab 团队于2024年初提出并开源）的精妙之处在于采用了"分而治之"的思想，将整个序列的注意力计算分解为两个可并行处理的部分。

分块（Tiling）：将输入序列的 Q、K、V 矩阵沿序列维度切分成多个固定大小的块（Block）。
块内计算（Intra-block） ：在每个块内部，由于需要遵守因果建模的单向注意力 规则（即当前Token只能关注之前的Token），因此仍然采用传统的左乘计算方式 （Q * K^T）。这部分计算复杂度与块大小的平方相关，但由于块大小是固定的，因此整体复杂度仍是线性的。
块间计算（Inter-block） ：对于当前块需要关注的所有历史块 的信息，由于它们都位于当前Token之前，不再受单向掩码限制。此时，可以运用线性注意力的关键技巧------右乘计算 （先计算 K^T * V，再与 Q相乘）。这一步的复杂度是严格的 O(L)，且可以高效并行。

最终，当前块的输出是块内注意力结果与块间注意力结果的和。通过递归更新和传递块间的 KV 状态，模型就能以线性复杂度捕捉完整的全局依赖关系。

minimax2.5对Lightning Attention在工程上做了改造，提供cuda 内核，以支持高速训练推理。

Qwen3.5 模型系列概览

Qwen3.5 是阿里巴巴通义千问团队于2026年2月发布的新一代原生多模态智能体基础模型系列。其核心定位是从"语言模型"向"原生多模态智能体"的跨越。

目前已开源的主要模型包括：

Qwen3.5-397B-A17B（旗舰模型）
- 参数规模 ：总参数量 3970亿 ，采用超稀疏混合专家（MoE）架构，每次推理仅激活 170亿 参数（激活率约4.3%）。
- 核心特性 ：原生多模态（文本、图像、视频）、支持201种语言、上下文长度最高可达 1,010,000 tokens ，并内置多Token预测（MTP）和思考模式。
Qwen3.5-MoE（高效变体）
- 在基础架构上，将前馈网络（FFN）全部替换为MoE结构。通常包含多个路由专家和1个共享专家，在保持高性能的同时进一步优化推理效率。

此外，根据技术演进，该系列可能还包括不同参数规模的纯文本（Dense）版本，但当前开源和宣传的重点是上述MoE多模态版本。

Qwen3.5 核心架构详解

Qwen3.5的架构进行了系统性革新，旨在实现"大规模下的高效率"（Efficiency at Scale）。其核心设计如下图所示（架构示意图）：

复制代码

flowchart TD
    A[输入<br>文本/图像/视频] --> B[早期多模态融合]
    B --> C{混合注意力层堆叠}
    
    C --> D[线性注意力层<br>Gated DeltaNet<br>复杂度 O(n)]
    D --> E[信息压缩与高效传递]
    E --> F[全注意力层<br>Gated Attention<br>复杂度 O(n²)]
    F --> G[精确捕捉关键依赖]
    
    G --> C
    C --> H[MoE稀疏前馈网络]
    
    subgraph H [MoE专家层]
        I[路由器] --> J[选择Top-K专家]
        J --> K[专家网络1]
        J --> L[专家网络2]
        J --> M[...]
        J --> N[共享专家网络]
        K & L & M & N --> O[加权求和输出]
    end
    
    O --> P[输出]

1. 混合注意力机制（Hybrid Attention）

这是架构中最显著的创新。模型不再全部使用传统的Softmax注意力，而是以 3:1 的比例交替堆叠 两种注意力层：

线性注意力（Gated DeltaNet） ：占75%。使用 Gated Delta Rule 维护一个固定大小的状态记忆矩阵，将计算复杂度从传统的 O(n²) 降至 O(n)，实现了长序列下的超高吞吐（256K上下文解码速度可达前代的19倍）。
全注意力（Gated Attention）：占25%。保留标准注意力机制，确保模型对复杂依赖和关键信息具备精确的捕捉能力。

2. 极稀疏MoE（Mixture of Experts）

模型总参数量巨大（397B），但通过MoE路由，每个Token仅激活 10个路由专家 和 1个共享专家。
共享专家机制 确保基础通用知识的稳定性，而动态路由则激活 specialized 知识。这使得其推理成本仅相当于一个170亿参数的模型，实现了"以大模型的容量，获得中等模型的成本"。

3. 原生多模态融合

不同于"语言模型+视觉编码器"的后期拼接，Qwen3.5从预训练开始就进行早期的文本-视觉融合。
通过视觉Transformer（ViT）和PatchMerger模块处理图像，将视觉Token与文本Token在模型底层进行统一建模，实现了更深度的跨模态理解。

4. 其他关键技术点

门控机制 ：采用获得NeurIPS 2025最佳论文的 head-specific sigmoid门控 替代传统Softmax，实现更精细的注意力控制。
位置编码 ：使用部分旋转与交错的M-RoPE，支持超长上下文。
训练优化：采用端到端FP8训练、异步强化学习框架（支持百万级智能体环境）等先进技术栈。

总结：Qwen3.5通过 **"混合注意力 + 超稀疏MoE + 原生多模态融合"** 三位一体的架构设计，在保持顶尖性能的同时，革命性地降低了超大模型的推理成本与能耗，为AI智能体（Agent）的大规模实际应用铺平了道路。

Gated DeltaNet和lignthing attention的区别

Gated DeltaNet（门控增量网络）和 Lightning Attention（闪电注意力）都是旨在将 Transformer 注意力计算复杂度从 O(n²) 降至 **O(n)** 的线性注意力机制，但它们在设计哲学、核心算法和适用场景上存在显著差异。

一、核心设计理念与数学原理对比

维度	Gated DeltaNet (GDN)	Lightning Attention (LA)
核心思想	RNN状态机 + 门控记忆管理。将注意力建模为一个可读写、可遗忘的连续状态矩阵，通过门控机制动态控制信息的保留与更新。	计算重构 + 分块并行。通过"分而治之"的策略，将注意力计算拆分为可并行处理的块内和块间两部分，绕过因果模型中的顺序累加瓶颈。
数学公式	状态递推公式： `S_t = α_t S_{t-1} + β_t (v_t - α_t S_{t-1} k_t) k_t^⊤` • `α_t`：衰减因子（遗忘门），控制历史记忆的全局保留率。 • `β_t`：输入门控，控制当前新信息的写入强度。 • `(v_t - α_t S_{t-1} k_t)`：Delta Rule（增量规则），先计算预测误差，再按此误差精确更新与当前 `k_t`相关的旧记忆。	核心算法： `O_i = O_intra + O_inter` • 块内计算 (Intra-block) ：对每个固定大小的块，使用传统的左乘注意力（`Q * K^T * V`），复杂度 O(块大小²)。 • 块间计算 (Inter-block) ：对历史块的信息，利用线性注意力的右乘技巧（`Q * (K^T * V)`），计算一个固定的跨块统计摘要，复杂度 O(n)。
关键创新	将 Mamba2 的标量全局遗忘门与 DeltaNet 的基于键的精确擦写机制相结合，实现了 "全局快速遗忘 + 局部精准更新" 的统一记忆管理框架。	提出了 Tiling（分块）技术，并巧妙地将因果掩码的影响限制在块内，使得块间计算可以完全并行，首次在因果模型中实现了理论上的线性训练速度。
计算复杂度	O(n) ，通过维护一个固定大小（d×d）的状态矩阵 `S_t`实现。	O(n)，通过固定块大小的块内计算和线性的块间摘要计算实现。

二、性能与特性侧重点对比

特性	Gated DeltaNet	Lightning Attention
记忆管理	精细且显式。模型可以主动遗忘特定内容（如过时的对话角色），同时保留其他无关记忆，适合需要精确上下文控制的场景。	相对粗粒度。块间信息被压缩为一个统计摘要，丢失了部分细节，长程依赖的建模能力弱于传统注意力。
训练并行性	递推形式本质上存在顺序依赖，但通过 Chunk-wise并行和 WY表示法进行了优化，并行度低于LA 。	极致并行。块内和块间计算均可高度并行，在GPU上能实现接近理论极限的吞吐。
推理优势	可转化为RNN模式，实现恒定时间与内存的解码，非常适合流式生成和超长文本推理。	同样可转化为RNN模式，推理时只需循环更新一个固定大小的KV状态，效率极高。
主要应用模型	Qwen3-Next 、Kimi Linear（在其基础上改进为通道级门控）。	MiniMax-01/M1/M2.5 系列（采用7:1的混合注意力架构）。
业界评价	被视为 Mamba2 的实质性演进，在合成检索任务（如S-NIAH）上表现优异，记忆管理能力更强。	早期版本被批评为"只是在最原始线性注意力上叠了粗粒度衰减"，在多跳推理等复杂任务上表现不佳，因此MiniMax采用混合架构来弥补。

三、总结：如何选择？

选择 Gated DeltaNet，如果你追求 ：更精细的记忆控制能力 、更接近RNN的序列建模直觉 ，以及在长文档理解、多轮对话等需要精确上下文管理场景下的潜在优势。
选择 Lightning Attention，如果你追求 ：极致的训练速度和硬件利用率 、已被大规模生产验证的工程化方案 （特别是混合架构），以及推理时绝对的常数级开销。

本质而言 ：Gated DeltaNet 是 "算法驱动" 的创新，试图从根本上改进线性注意力的记忆建模能力；而 Lightning Attention 是 **"工程驱动"** 的突破，核心贡献在于通过计算重构解决了线性注意力在因果模型中的并行化难题。两者共同推动了高效大模型的发展，但解决了不同层面的问题。

四、Gated DeltaNet使用了结合律吗

是，Gated DeltaNet 继承了线性注意力利用矩阵乘法结合律的核心设计，从而实现了 O(n) 的复杂度。
但，它通过门控增量规则显著增强了记忆的精细控制能力（全局遗忘 + 局部精准更新），这使其超越了传统的线性注意力，成为 Qwen3-Next、Kimi Linear 等先进长上下文模型的基石

感受

1、混合线性注意力将成为主流，未来也许会有人叠加DSA中的top-k检索。分块、稀疏、线性这几个的组合。

2、大量真实环境、自动验证、异步高速强化训练框架是造成模型飞跃式进步的关键