DeepSeek突然发布 V3.2-exp,长文本能力加强,价格进一步下探

大家好,我是 MAI麦造

DeepSeek又一次在假期前夕突袭发布新模型。

9月29日,DeepSeek正式推出实验性版本DeepSeek-V3.2-Exp,作为新一代架构演进的重要步骤。

该模型在V3.1-Terminus基础上引入创新的稀疏注意力机制(DSA), 首次实现细粒度稀疏注意力,在保持模型性能基本不变的前提下,显著提升了长文本训练和推理效率。

01 DSA稀疏注意力突破

作为V3.1-Terminus的升级版本,V3.2-Exp的核心创新在于引入了DeepSeek稀疏注意力(DSA)机制。

这种稀疏注意力机制是对MLA(Multi-Layer Attention)的改进,使得模型能够更好地处理长序列数据。

通过引入稀疏性,DSA减少了计算量,从而提高了训练和推理速度。

传统注意力机制需要计算序列中每个token与所有其他token的关系,计算复杂度为O(n²),而DSA通过选择性计算注意力权重,突破了传统Transformer架构的限制。

尽管DeepSeek-V3.2-Exp的参数量达到685B,但通过DSA机制,在长文本处理场景中显著降低了计算成本和内存使用。

02 效率的提升

根据官方性能数据,DeepSeek-V3.2-Exp在多方面实现了显著效率提升。

指标 DeepSeek-V3.1-Terminus DeepSeek-V3.2-Exp 改进幅度
长文本推理速度 基准 显著提升 ~2-3倍
内存使用量 基准 降低 ~30-40%
训练效率 基准 提升 ~50%
API成本 基准 降低 50%+

在官方测试中,使用DSA的模型在处理128K长上下文时,推理成本显著低于DeepSeek-V3.1-Terminus,尤其在解码阶段表现更为突出。

03 长上下文能力增强

DeepSeek-V3.2-Exp在长上下文处理方面表现出色。华为云已完成对该模型的适配工作,最大可支持160K长序列上下文长度。

这一长度足以处理数百页的文档,为法律、学术研究等领域的大规模文本分析提供了可能。

DSA稀疏注意力机制是DeepSeek对Transformer架构持续研究的成果,特别关注提高处理扩展文本序列时的计算效率。

在模型发布后,官方为V3.1-Terminus临时保留了额外API访问接口,使研究人员和开发者能够同时访问新旧两个版本,便于在实际应用中比较长文本处理性能的差异。

04 API价格大幅下探

随着V3.2-Exp的发布,DeepSeek宣布官方API价格大幅下调,降幅超过50%。

新的定价策略采用基于缓存的差异化计价:

· 输入成本:缓存命中时低至 ¥0.2 /百万token,缓存未命中为**¥0.56**/百万token

· 输出成本:缓存命中时**¥0.16** /百万token,缓存未命中为**¥0.42**/百万token

这一价格结构使得高缓存命中率场景下的成本降低可达70-80%。

即使是缓存未命中的新用户,其API调用成本仍比大多数竞争对手低50%以上,大幅降低了大模型应用的入门门槛。

05 双版本算子开源

DeepSeek一如既往地在Hugging Face和魔搭平台同步开源发布了V3.2-Exp模型。

此次开源不仅包括模型权重,还包含了DeepSeek稀疏注意力机制的技术论文,为研究社区提供了宝贵的学习资源。

在技术实现方面,DeepSeek开源了TileLang和CUDA双版本算子。

这种双版本策略既满足了研究社区对可读性和调试便利性的需求,又照顾了生产环境对性能的极致追求。

对于研究性实验,官方建议使用基于TileLang的版本以方便调试和快速迭代;而对于生产环境,则可选择高性能的CUDA版

附:今年deepseek的发布时间线

  • 2025年3月24日 DeepSeek-V3-0324 V3的小版本升级,改进了推理、代码生成和中文写作等能力。
  • 2025年5月28日 DeepSeek-R1-0528 专注于推理能力的旗舰模型(R1系列)升级版本。
  • 2025年8月21日 DeepSeek-V3.1 引入混合推理架构,上下文窗口扩展至128K,Agent能力增强。
  • 2025年9月22日 DeepSeek-V3.1-Terminus V3.1的改进版,优化了语言一致性(缓解中英文混杂)和Agent能力。
  • 2025年9月29日 DeepSeek-V3.2-Exp 引入稀疏Attention架构(DSA),提升效率,并大幅降低API成本。
相关推荐
立志成为大牛的小牛32 分钟前
数据结构——四十、折半查找(王道408)
数据结构·学习·程序人生·考研·算法
王哈哈^_^1 小时前
【完整源码+数据集】蓝莓数据集,yolo11蓝莓成熟度检测数据集 3023 张,蓝莓成熟度数据集,目标检测蓝莓识别算法系统实战教程
人工智能·算法·yolo·目标检测·计算机视觉·ai·视觉检测
王哈哈^_^1 小时前
【完整源码+数据集】高空作业数据集,yolo高空作业检测数据集 2076 张,人员高空作业数据集,目标检测高空作业识别系统实战教程
人工智能·算法·yolo·目标检测·计算机视觉·目标跟踪·视觉检测
一条数据库1 小时前
猫狗识别数据集:34,441张高质量标注图像,深度学习二分类任务训练数据集,计算机视觉算法研发,CNN模型训练,图像识别分类,机器学习实践项目完整数据资
深度学习·算法·机器学习
bloxd yzh1 小时前
图论基础概念
算法
小白程序员成长日记1 小时前
2025.11.09 力扣每日一题
算法·leetcode·职场和发展
hansang_IR1 小时前
【题解】洛谷 P1477 [NOI2008] 假面舞会 [思维 + 图论]
c++·算法·图论·思维
天选之女wow1 小时前
【代码随想录算法训练营——Day59】图论——47.参加科学大会、94.城市间货物运输I
算法·图论
CoovallyAIHub2 小时前
1.2MB超轻量模型实现草莓苗精准分级检测与定位,准确率超96%
深度学习·算法·计算机视觉
CoovallyAIHub2 小时前
终结AI偏见!Sony AI发布Nature论文与FHIBE数据集,重塑公平性评估基准
深度学习·算法·计算机视觉