大家好,我是 MAI麦造
DeepSeek又一次在假期前夕突袭发布新模型。
9月29日,DeepSeek正式推出实验性版本DeepSeek-V3.2-Exp,作为新一代架构演进的重要步骤。
该模型在V3.1-Terminus基础上引入创新的稀疏注意力机制(DSA), 首次实现细粒度稀疏注意力,在保持模型性能基本不变的前提下,显著提升了长文本训练和推理效率。
01 DSA稀疏注意力突破
作为V3.1-Terminus的升级版本,V3.2-Exp的核心创新在于引入了DeepSeek稀疏注意力(DSA)机制。
这种稀疏注意力机制是对MLA(Multi-Layer Attention)的改进,使得模型能够更好地处理长序列数据。
通过引入稀疏性,DSA减少了计算量,从而提高了训练和推理速度。
传统注意力机制需要计算序列中每个token与所有其他token的关系,计算复杂度为O(n²),而DSA通过选择性计算注意力权重,突破了传统Transformer架构的限制。
尽管DeepSeek-V3.2-Exp的参数量达到685B,但通过DSA机制,在长文本处理场景中显著降低了计算成本和内存使用。
02 效率的提升
根据官方性能数据,DeepSeek-V3.2-Exp在多方面实现了显著效率提升。
指标 | DeepSeek-V3.1-Terminus | DeepSeek-V3.2-Exp | 改进幅度 |
---|---|---|---|
长文本推理速度 | 基准 | 显著提升 | ~2-3倍 |
内存使用量 | 基准 | 降低 | ~30-40% |
训练效率 | 基准 | 提升 | ~50% |
API成本 | 基准 | 降低 | 50%+ |
在官方测试中,使用DSA的模型在处理128K长上下文时,推理成本显著低于DeepSeek-V3.1-Terminus,尤其在解码阶段表现更为突出。
03 长上下文能力增强
DeepSeek-V3.2-Exp在长上下文处理方面表现出色。华为云已完成对该模型的适配工作,最大可支持160K长序列上下文长度。
这一长度足以处理数百页的文档,为法律、学术研究等领域的大规模文本分析提供了可能。
DSA稀疏注意力机制是DeepSeek对Transformer架构持续研究的成果,特别关注提高处理扩展文本序列时的计算效率。
在模型发布后,官方为V3.1-Terminus临时保留了额外API访问接口,使研究人员和开发者能够同时访问新旧两个版本,便于在实际应用中比较长文本处理性能的差异。
04 API价格大幅下探
随着V3.2-Exp的发布,DeepSeek宣布官方API价格大幅下调,降幅超过50%。
新的定价策略采用基于缓存的差异化计价:
· 输入成本:缓存命中时低至 ¥0.2 /百万token,缓存未命中为**¥0.56**/百万token
· 输出成本:缓存命中时**¥0.16** /百万token,缓存未命中为**¥0.42**/百万token
这一价格结构使得高缓存命中率场景下的成本降低可达70-80%。
即使是缓存未命中的新用户,其API调用成本仍比大多数竞争对手低50%以上,大幅降低了大模型应用的入门门槛。
05 双版本算子开源
DeepSeek一如既往地在Hugging Face和魔搭平台同步开源发布了V3.2-Exp模型。
此次开源不仅包括模型权重,还包含了DeepSeek稀疏注意力机制的技术论文,为研究社区提供了宝贵的学习资源。
在技术实现方面,DeepSeek开源了TileLang和CUDA双版本算子。
这种双版本策略既满足了研究社区对可读性和调试便利性的需求,又照顾了生产环境对性能的极致追求。
对于研究性实验,官方建议使用基于TileLang的版本以方便调试和快速迭代;而对于生产环境,则可选择高性能的CUDA版
附:今年deepseek的发布时间线
- 2025年3月24日
DeepSeek-V3-0324
V3的小版本升级,改进了推理、代码生成和中文写作等能力。 - 2025年5月28日
DeepSeek-R1-0528
专注于推理能力的旗舰模型(R1系列)升级版本。 - 2025年8月21日
DeepSeek-V3.1
引入混合推理架构,上下文窗口扩展至128K,Agent能力增强。 - 2025年9月22日
DeepSeek-V3.1-Terminus
V3.1的改进版,优化了语言一致性(缓解中英文混杂)和Agent能力。 - 2025年9月29日
DeepSeek-V3.2-Exp
引入稀疏Attention架构(DSA),提升效率,并大幅降低API成本。