DeepSeek突然发布 V3.2-exp，长文本能力加强，价格进一步下探

大家好，我是 MAI麦造

DeepSeek又一次在假期前夕突袭发布新模型。

9月29日，DeepSeek正式推出实验性版本DeepSeek-V3.2-Exp，作为新一代架构演进的重要步骤。

该模型在V3.1-Terminus基础上引入创新的稀疏注意力机制（DSA），首次实现细粒度稀疏注意力，在保持模型性能基本不变的前提下，显著提升了长文本训练和推理效率。

01 DSA稀疏注意力突破

作为V3.1-Terminus的升级版本，V3.2-Exp的核心创新在于引入了DeepSeek稀疏注意力（DSA）机制。

这种稀疏注意力机制是对MLA（Multi-Layer Attention）的改进，使得模型能够更好地处理长序列数据。

通过引入稀疏性，DSA减少了计算量，从而提高了训练和推理速度。

传统注意力机制需要计算序列中每个token与所有其他token的关系，计算复杂度为O(n²)，而DSA通过选择性计算注意力权重，突破了传统Transformer架构的限制。

尽管DeepSeek-V3.2-Exp的参数量达到685B，但通过DSA机制，在长文本处理场景中显著降低了计算成本和内存使用。

根据官方性能数据，DeepSeek-V3.2-Exp在多方面实现了显著效率提升。

指标	DeepSeek-V3.1-Terminus	DeepSeek-V3.2-Exp	改进幅度
长文本推理速度	基准	显著提升	~2-3倍
内存使用量	基准	降低	~30-40%
训练效率	基准	提升	~50%
API成本	基准	降低	50%+

在官方测试中，使用DSA的模型在处理128K长上下文时，推理成本显著低于DeepSeek-V3.1-Terminus，尤其在解码阶段表现更为突出。

DeepSeek-V3.2-Exp在长上下文处理方面表现出色。华为云已完成对该模型的适配工作，最大可支持160K长序列上下文长度。

这一长度足以处理数百页的文档，为法律、学术研究等领域的大规模文本分析提供了可能。

DSA稀疏注意力机制是DeepSeek对Transformer架构持续研究的成果，特别关注提高处理扩展文本序列时的计算效率。

在模型发布后，官方为V3.1-Terminus临时保留了额外API访问接口，使研究人员和开发者能够同时访问新旧两个版本，便于在实际应用中比较长文本处理性能的差异。

随着V3.2-Exp的发布，DeepSeek宣布官方API价格大幅下调，降幅超过50%。

新的定价策略采用基于缓存的差异化计价：

· 输入成本：缓存命中时低至 ¥0.2 /百万token，缓存未命中为**¥0.56**/百万token

· 输出成本：缓存命中时**¥0.16** /百万token，缓存未命中为**¥0.42**/百万token

这一价格结构使得高缓存命中率场景下的成本降低可达70-80%。

即使是缓存未命中的新用户，其API调用成本仍比大多数竞争对手低50%以上，大幅降低了大模型应用的入门门槛。

DeepSeek一如既往地在Hugging Face和魔搭平台同步开源发布了V3.2-Exp模型。

此次开源不仅包括模型权重，还包含了DeepSeek稀疏注意力机制的技术论文，为研究社区提供了宝贵的学习资源。

在技术实现方面，DeepSeek开源了TileLang和CUDA双版本算子。

这种双版本策略既满足了研究社区对可读性和调试便利性的需求，又照顾了生产环境对性能的极致追求。

对于研究性实验，官方建议使用基于TileLang的版本以方便调试和快速迭代；而对于生产环境，则可选择高性能的CUDA版