DeepSeek突然发布 V3.2-exp,长文本能力加强,价格进一步下探

大家好,我是 MAI麦造

DeepSeek又一次在假期前夕突袭发布新模型。

9月29日,DeepSeek正式推出实验性版本DeepSeek-V3.2-Exp,作为新一代架构演进的重要步骤。

该模型在V3.1-Terminus基础上引入创新的稀疏注意力机制(DSA), 首次实现细粒度稀疏注意力,在保持模型性能基本不变的前提下,显著提升了长文本训练和推理效率。

01 DSA稀疏注意力突破

作为V3.1-Terminus的升级版本,V3.2-Exp的核心创新在于引入了DeepSeek稀疏注意力(DSA)机制。

这种稀疏注意力机制是对MLA(Multi-Layer Attention)的改进,使得模型能够更好地处理长序列数据。

通过引入稀疏性,DSA减少了计算量,从而提高了训练和推理速度。

传统注意力机制需要计算序列中每个token与所有其他token的关系,计算复杂度为O(n²),而DSA通过选择性计算注意力权重,突破了传统Transformer架构的限制。

尽管DeepSeek-V3.2-Exp的参数量达到685B,但通过DSA机制,在长文本处理场景中显著降低了计算成本和内存使用。

02 效率的提升

根据官方性能数据,DeepSeek-V3.2-Exp在多方面实现了显著效率提升。

指标 DeepSeek-V3.1-Terminus DeepSeek-V3.2-Exp 改进幅度
长文本推理速度 基准 显著提升 ~2-3倍
内存使用量 基准 降低 ~30-40%
训练效率 基准 提升 ~50%
API成本 基准 降低 50%+

在官方测试中,使用DSA的模型在处理128K长上下文时,推理成本显著低于DeepSeek-V3.1-Terminus,尤其在解码阶段表现更为突出。

03 长上下文能力增强

DeepSeek-V3.2-Exp在长上下文处理方面表现出色。华为云已完成对该模型的适配工作,最大可支持160K长序列上下文长度。

这一长度足以处理数百页的文档,为法律、学术研究等领域的大规模文本分析提供了可能。

DSA稀疏注意力机制是DeepSeek对Transformer架构持续研究的成果,特别关注提高处理扩展文本序列时的计算效率。

在模型发布后,官方为V3.1-Terminus临时保留了额外API访问接口,使研究人员和开发者能够同时访问新旧两个版本,便于在实际应用中比较长文本处理性能的差异。

04 API价格大幅下探

随着V3.2-Exp的发布,DeepSeek宣布官方API价格大幅下调,降幅超过50%。

新的定价策略采用基于缓存的差异化计价:

· 输入成本:缓存命中时低至 ¥0.2 /百万token,缓存未命中为**¥0.56**/百万token

· 输出成本:缓存命中时**¥0.16** /百万token,缓存未命中为**¥0.42**/百万token

这一价格结构使得高缓存命中率场景下的成本降低可达70-80%。

即使是缓存未命中的新用户,其API调用成本仍比大多数竞争对手低50%以上,大幅降低了大模型应用的入门门槛。

05 双版本算子开源

DeepSeek一如既往地在Hugging Face和魔搭平台同步开源发布了V3.2-Exp模型。

此次开源不仅包括模型权重,还包含了DeepSeek稀疏注意力机制的技术论文,为研究社区提供了宝贵的学习资源。

在技术实现方面,DeepSeek开源了TileLang和CUDA双版本算子。

这种双版本策略既满足了研究社区对可读性和调试便利性的需求,又照顾了生产环境对性能的极致追求。

对于研究性实验,官方建议使用基于TileLang的版本以方便调试和快速迭代;而对于生产环境,则可选择高性能的CUDA版

附:今年deepseek的发布时间线

  • 2025年3月24日 DeepSeek-V3-0324 V3的小版本升级,改进了推理、代码生成和中文写作等能力。
  • 2025年5月28日 DeepSeek-R1-0528 专注于推理能力的旗舰模型(R1系列)升级版本。
  • 2025年8月21日 DeepSeek-V3.1 引入混合推理架构,上下文窗口扩展至128K,Agent能力增强。
  • 2025年9月22日 DeepSeek-V3.1-Terminus V3.1的改进版,优化了语言一致性(缓解中英文混杂)和Agent能力。
  • 2025年9月29日 DeepSeek-V3.2-Exp 引入稀疏Attention架构(DSA),提升效率,并大幅降低API成本。
相关推荐
superman超哥6 小时前
仓颉语言中基本数据类型的深度剖析与工程实践
c语言·开发语言·python·算法·仓颉
Learner__Q7 小时前
每天五分钟:滑动窗口-LeetCode高频题解析_day3
python·算法·leetcode
阿昭L7 小时前
leetcode链表相交
算法·leetcode·链表
闻缺陷则喜何志丹7 小时前
【计算几何】仿射变换与齐次矩阵
c++·数学·算法·矩阵·计算几何
liuyao_xianhui7 小时前
0~n-1中缺失的数字_优选算法(二分查找)
算法
hmbbcsm8 小时前
python做题小记(八)
开发语言·c++·算法
机器学习之心8 小时前
基于Stacking集成学习算法的数据回归预测(4种基学习器PLS、SVM、BP、RF,元学习器LSBoost)MATLAB代码
算法·回归·集成学习·stacking集成学习
图像生成小菜鸟8 小时前
Score Based diffusion model 数学推导
算法·机器学习·概率论
声声codeGrandMaster8 小时前
AI之模型提升
人工智能·pytorch·python·算法·ai
黄金小码农9 小时前
工具坐标系
算法