DeepSeek突然发布 V3.2-exp,长文本能力加强,价格进一步下探

大家好,我是 MAI麦造

DeepSeek又一次在假期前夕突袭发布新模型。

9月29日,DeepSeek正式推出实验性版本DeepSeek-V3.2-Exp,作为新一代架构演进的重要步骤。

该模型在V3.1-Terminus基础上引入创新的稀疏注意力机制(DSA), 首次实现细粒度稀疏注意力,在保持模型性能基本不变的前提下,显著提升了长文本训练和推理效率。

01 DSA稀疏注意力突破

作为V3.1-Terminus的升级版本,V3.2-Exp的核心创新在于引入了DeepSeek稀疏注意力(DSA)机制。

这种稀疏注意力机制是对MLA(Multi-Layer Attention)的改进,使得模型能够更好地处理长序列数据。

通过引入稀疏性,DSA减少了计算量,从而提高了训练和推理速度。

传统注意力机制需要计算序列中每个token与所有其他token的关系,计算复杂度为O(n²),而DSA通过选择性计算注意力权重,突破了传统Transformer架构的限制。

尽管DeepSeek-V3.2-Exp的参数量达到685B,但通过DSA机制,在长文本处理场景中显著降低了计算成本和内存使用。

02 效率的提升

根据官方性能数据,DeepSeek-V3.2-Exp在多方面实现了显著效率提升。

指标 DeepSeek-V3.1-Terminus DeepSeek-V3.2-Exp 改进幅度
长文本推理速度 基准 显著提升 ~2-3倍
内存使用量 基准 降低 ~30-40%
训练效率 基准 提升 ~50%
API成本 基准 降低 50%+

在官方测试中,使用DSA的模型在处理128K长上下文时,推理成本显著低于DeepSeek-V3.1-Terminus,尤其在解码阶段表现更为突出。

03 长上下文能力增强

DeepSeek-V3.2-Exp在长上下文处理方面表现出色。华为云已完成对该模型的适配工作,最大可支持160K长序列上下文长度。

这一长度足以处理数百页的文档,为法律、学术研究等领域的大规模文本分析提供了可能。

DSA稀疏注意力机制是DeepSeek对Transformer架构持续研究的成果,特别关注提高处理扩展文本序列时的计算效率。

在模型发布后,官方为V3.1-Terminus临时保留了额外API访问接口,使研究人员和开发者能够同时访问新旧两个版本,便于在实际应用中比较长文本处理性能的差异。

04 API价格大幅下探

随着V3.2-Exp的发布,DeepSeek宣布官方API价格大幅下调,降幅超过50%。

新的定价策略采用基于缓存的差异化计价:

· 输入成本:缓存命中时低至 ¥0.2 /百万token,缓存未命中为**¥0.56**/百万token

· 输出成本:缓存命中时**¥0.16** /百万token,缓存未命中为**¥0.42**/百万token

这一价格结构使得高缓存命中率场景下的成本降低可达70-80%。

即使是缓存未命中的新用户,其API调用成本仍比大多数竞争对手低50%以上,大幅降低了大模型应用的入门门槛。

05 双版本算子开源

DeepSeek一如既往地在Hugging Face和魔搭平台同步开源发布了V3.2-Exp模型。

此次开源不仅包括模型权重,还包含了DeepSeek稀疏注意力机制的技术论文,为研究社区提供了宝贵的学习资源。

在技术实现方面,DeepSeek开源了TileLang和CUDA双版本算子。

这种双版本策略既满足了研究社区对可读性和调试便利性的需求,又照顾了生产环境对性能的极致追求。

对于研究性实验,官方建议使用基于TileLang的版本以方便调试和快速迭代;而对于生产环境,则可选择高性能的CUDA版

附:今年deepseek的发布时间线

  • 2025年3月24日 DeepSeek-V3-0324 V3的小版本升级,改进了推理、代码生成和中文写作等能力。
  • 2025年5月28日 DeepSeek-R1-0528 专注于推理能力的旗舰模型(R1系列)升级版本。
  • 2025年8月21日 DeepSeek-V3.1 引入混合推理架构,上下文窗口扩展至128K,Agent能力增强。
  • 2025年9月22日 DeepSeek-V3.1-Terminus V3.1的改进版,优化了语言一致性(缓解中英文混杂)和Agent能力。
  • 2025年9月29日 DeepSeek-V3.2-Exp 引入稀疏Attention架构(DSA),提升效率,并大幅降低API成本。
相关推荐
lingran__3 小时前
速通ACM省铜第十七天 赋源码(Racing)
c++·算法
MobotStone4 小时前
手把手教你玩转AI绘图
算法
CappuccinoRose4 小时前
MATLAB学习文档(二十二)
学习·算法·matlab
学c语言的枫子5 小时前
数据结构——基本查找算法
算法
yanqiaofanhua5 小时前
C语言自学--自定义类型:结构体
c语言·开发语言·算法
sali-tec6 小时前
C# 基于halcon的视觉工作流-章39-OCR识别
开发语言·图像处理·算法·计算机视觉·c#·ocr
芒克芒克6 小时前
LeetCode 面试经典 150 题之判断子序列解题详解
算法
兮山与6 小时前
算法1.0
算法
im_AMBER7 小时前
数据结构 02 线性表
数据结构·算法