DeepSeek发布新模型!采用全新稀疏注意力架构设计,与国产芯片协同优化

昨天,DeepSeek正式发布并开源了DeepSeek-V3.2-Exp模型,新模型引入的稀疏注意力架构不仅带来了计算效率的显著提升,更实现了API价格的大幅下调。同时,新架构还与国产芯片深度协同,适配多家国产芯片厂商。

DeepSeek-V3.2-Exp作为一个实验性版本,在其前代模型V3.1-Terminus的基础上引入了DeepSeek Sparse Attention稀疏注意力机制。这一架构创新突破了传统Transformer架构的限制,让模型在处理每个字符时能够只关注那些与它最相关的少数关键信息,从而大幅提升长文本训练和推理效率。

效率提升直接体现在成本变化上。DeepSeek宣布官方API价格相应下调,在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上。具体来看,输入价格在缓存命中时从0.5元/百万tokens降至0.2元/百万tokens,输出价格则从12元/百万tokens大幅降到了3元/百万tokens。这种幅度的降价使得高性能AI模型的使用门槛显著降低。

技术层面,DeepSeek采用全新的稀疏注意力机制。新架构用一个更精简的128维FP8精度Lightning Indexer替代了过去相对臃肿的注意力机制。这个索引器本身不携带复杂信息,只作为快速查找工具,查找过程使用低成本的FP8精度,而进行核心计算的重要信息则依然保持完整的FP16全精度处理。这种在不影响最终质量的地方极致压缩成本的思路,是能够将注意力成本降低近9倍的关键。

官方数据显示,在与V3.1-Terminus严格对齐的比较中,V3.2-Exp在各项核心能力上都保持了基本持平的水准。在代码生成、数学推理和通用知识等多个公开评测集上,二者的得分都非常接近,差距基本控制在1%以内。这表明稀疏注意力机制在提升效率的同时,确实实现了性能的稳定保持。

此次发布的最大亮点是国产芯片的即时适配。DeepSeek-V3.2发布当天,寒武纪与昇腾均已实现适配。

全新DeepSeek Sparse Attention机制叠加国产芯片的计算效率,可大幅降低长序列场景下的训练推理成本。

这种软硬协同设计支持国产算力的深度协同不仅体现在算法与芯片的配合上,还延伸到了开发工具层面。DeepSeek开源了新模型研究中设计和实现的GPU算子,包括TileLang和CUDA两种版本。TileLang作为一种由北大团队研发的新型编程语言,专为简化高难度的GPU算子开发而设计,能够极大地降低底层优化的门槛和研发成本。

目前,模型已在Huggingface与魔搭平台开源,官方App、网页端、小程序均已同步更新。

V3.2-Exp代表着DeepSeek向下一代架构迈进的关键一步。官方将其定位为一次针对长文本训练与推理效率的探索性优化和验证。

随着上下文窗口越来越长,传统注意力机制可能会遭遇性能上的注意力悬崖,即在某个长度节点之后,模型处理信息的能力会突然大幅下降。

稀疏注意力机制的应用,正是为未来更长的上下文场景探索一种能从根本上避免这个问题的架构解决方案。

DeepSeek-V3.2-Exp的发布,展示了AI模型发展的一条可行路径------通过底层架构创新实现效率突破,进而推动整个应用生态的繁荣。

随着开源模型的不断进步和国产算力协同的深化,AI技术正在以前所未有的速度走向普及和应用。DeepSeek-V3.2-Exp的开源,所代表的不只是一次技术迭代,更是整个AI产业生态成熟和深化的体现。

相关推荐
doubao3633 分钟前
如何有效降低AIGC生成内容被识别的概率?
人工智能·深度学习·自然语言处理·aigc·ai写作
SEO_juper1 小时前
AEO终极指南:步步为营,提升内容的AI可见性
人工智能·ai·seo·数字营销·aeo
机器之心3 小时前
李飞飞最新长文:AI的下一个十年——构建真正具备空间智能的机器
人工智能·openai
机器之心3 小时前
豆包编程模型来了,我们用四个关卡考了考它!
人工智能·openai
阿里云大数据AI技术3 小时前
让 ETL 更懂语义:DataWorks 支持数据集成 AI 辅助处理能力
人工智能·阿里云·dataworks·ai辅助
hoiii1873 小时前
基于交替方向乘子法(ADMM)的RPCA MATLAB实现
人工智能·算法·matlab
Elastic 中国社区官方博客4 小时前
Elasticsearch:如何为 Elastic Stack 部署 E5 模型 - 下载及隔离环境
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
xier_ran4 小时前
深度学习:神经网络中的参数和超参数
人工智能·深度学习
8Qi84 小时前
伪装图像生成之——GAN与Diffusion
人工智能·深度学习·神经网络·生成对抗网络·图像生成·伪装图像生成
阿里云大数据AI技术5 小时前
PAI Physical AI Notebook详解2:基于Cosmos世界模型的操作动作数据扩增与模仿学习
人工智能