DeepSeek 新注意力机制引热议!梁文锋亲自提交预印本,目标明确降低计算成本

DeepSeek 新注意力机制论文一出,再次引爆讨论热度。

依然是熟悉的画风,熟悉的味道------

那边马斯克疯狂烧了 20 万张卡训出 Grok 3,这厢 DeepSeek 重点关注的依然是压缩计算和推理成本

具体来说,新论文提出了一种可原生训练的稀疏注意力机制,名为 NSA(Native Sparse Attention)。

目的很明确:解决大模型上下文建模中,标准注意力机制造成的计算成本高昂的问题。

效果也很明显:

实验表明,在解码 64k 上下文时,基于 softmax 架构的注意力计算占到总延迟的 70%-80%。而在不影响性能的前提下,NSA 在 64k 上下文的解码、前向传播和反向传播中均实现了显著加速。

其中前向传播速度最高可提升 9 倍,反向传播速度最高可提升 6 倍,解码速度提升可达 11.6 倍

正如不少网友提到的,NSA 意味着 DeepSeek 找到了优化注意力的方法,可以用更少的算力更加高效地训练大模型,并且,他们还把这些 "秘籍" 公开了出来。

刚刚加入 OpenAI 不久的 ViT 核心作者 Lucas Beyer 也不禁开麦:粉了粉了。

另一点受到关注的是,这篇论文的作者可以说是 DeepSeek 系列大模型原班人马,梁文锋本人亦在其列------

论文还是梁文锋亲自传上 arXiv 的。

实现超快速长上下文训练推理

来看论文细节。

NSA 的核心方法包括:

  • 动态分层稀疏策略

  • 粗粒度 Token 压缩

  • 细粒度 Token 选择

整体框架上,NSA 是用更紧凑的键值对替代原始注意力中的键值对,通过压缩、选择和滑动窗口(sliding window)三种映射策略得到优化注意力输出,保持高稀疏率。

采取分层设计的好处是:

  • 减少计算量的同时,能有效避免信息丢失,是模型在处理长序列时既高效又精准。

  • 能够在保证全局上下文感知的同时,精确捕捉局部信息,提升模型的表现。

  • 可根据任务需求和上下文动态调整稀疏程度

具体到算法设计上,粗粒度 Token 压缩通过将连续的 Token 聚合成块级表示,可以捕获全局语义信息,同时减少注意力的计算负担。

细粒度 Token 选择从序列中选择最重要的 Token,保留关键的局部信息。

滑动窗口则避免了局部模式的过度优势------在注意力机制中,局部模式往往会主导学习过程,阻止模型有效地从压缩和选择 Token 中学习。

为了实现以上创新,DeepSeek 官方还强调了两方面的关键工作:

  • 硬件对齐系统:针对张量核心利用率和内存访问优化块级稀疏注意力,确保均衡的算术强度。

  • 训练感知设计:通过高效算法和向后运算符实现稳定的端到端训练。

研究人员用 27B 参数规模的模型进行了实验,结果显示,全注意力机制和 NSA 在预训练损失方面,都表现出了稳定的收敛性,并且 NSA 实现了更低的损失值。

在包含知识、推理和编码能力的多个通用基准测试中,与全注意力模型相比,NSA 模型性能不降反超,在推理任务 DROP 中提升尤为明显。

长上下文方面,64k 上下文的 "大海捞针" 测试里,NSA 完美过关。

在需要复杂长下文推理的各项任务中,NSA 的表现也基本超过了包括全注意力模型在内的基线模型。

而在思维链推理评估中,通过知识蒸馏和监督微调,在 8k 和 16k 上下文设置下,AIME 任务中 NSA-R 的得分均超过了全注意力模型。

这表明,NSA 预训练的稀疏注意力模式能有效捕捉长距离逻辑依赖,且其硬件对齐设计可支持不断增加的推理深度。

效率方面,在 8-GPU A100 系统上,NSA 的训练加速效果会随上下文长度的增加而增强。在 64k 上下文长度时,前向传播速度最高可提升 9 倍,反向传播速度最高可提升 6 倍,解码速度提升可达 11.6 倍。

有意思的是,在马斯克推出 Grok 3 炸场之时,不少人感慨:"大力出奇迹" 在大模型训练里仍然奏效------

在 Grok 3 成为大模型竞技场首个突破 1400 分模型的背后,是惊人的 10 万卡(后来扩展到 20 万)H100 集群。

但现在,DeepSeek 为代表的效率派们显然在引发另一种方向上的思考:通往 AGI 的路,可以更高效,更本地化,更人人可用。

论文地址:
arxiv.org/abs/2502.11...

--- ---

相关推荐
互联网老欣36 分钟前
2025年保姆级教程:阿里云服务器部署Dify+Ollama,打造专属AI应用平台
服务器·阿里云·ai·云计算·dify·ollama·deepseek
百***354837 分钟前
DeepSeek在情感分析中的细粒度识别
人工智能
Qzkj6661 小时前
从规则到智能:企业数据分类分级的先进实践与自动化转型
大数据·人工智能·自动化
weixin79893765432...1 小时前
React + Fastify + DeepSeek 实现一个简单的对话式 AI 应用
人工智能·react.js·fastify
大千AI助手1 小时前
概率单位回归(Probit Regression)详解
人工智能·机器学习·数据挖掘·回归·大千ai助手·概率单位回归·probit回归
狂炫冰美式2 小时前
3天,1人,从0到付费产品:AI时代个人开发者的生存指南
前端·人工智能·后端
LCG元3 小时前
垂直Agent才是未来:详解让大模型"专业对口"的三大核心技术
人工智能
我不是QI3 小时前
周志华《机器学习—西瓜书》二
人工智能·安全·机器学习
操练起来3 小时前
【昇腾CANN训练营·第八期】Ascend C生态兼容:基于PyTorch Adapter的自定义算子注册与自动微分实现
人工智能·pytorch·acl·昇腾·cann
KG_LLM图谱增强大模型3 小时前
[500页电子书]构建自主AI Agent系统的蓝图:谷歌重磅发布智能体设计模式指南
人工智能·大模型·知识图谱·智能体·知识图谱增强大模型·agenticai