DeepSeek V4预览版于今天上午正式上线并同步开源。华为同日宣布,昇腾超节点全系列已完成对该模型的适配,实现新模型上线即能运行。大模型与芯片的常规适配周期通常需要数月,此次同步适配标志着国产AI产业链协同效率的重大突破。
DeepSeek V4是什么
DeepSeek V4是DeepSeek最新的大语言模型,以预览版形式上线并完全开源。
开源意味着模型代码公开可下载,允许任何人自由研究、修改,甚至在自己的服务器上部署运行。这与闭源模型形成本质区别:闭源模型是黑盒子,用户只能通过API调用;开源模型提供完整技术图纸,用户可以自主定制。
从V3到V4的升级涉及多项技术迭代,模型综合能力显著提升。
开源的实际价值
开源带来的影响远超程序员群体,普通用户也能直接受益:
-
透明度:代码公开使得任何人都可以审查模型是否存在后门或隐私泄露风险。对企业用户尤为关键,核心数据不应输入不可控的黑盒子。
-
可定制性:开发者可根据特定需求微调模型,创建垂直领域专用版本。医疗、法律、金融等行业均可拥有专属AI。
-
成本可控:开源允许自主部署,无需按调用次数付费。高频使用场景下,成本节省幅度显著。
普通用户直接运行大模型仍存在技术门槛,但基于DeepSeek V4开发的应用将快速增长,且价格更低,部分可能免费。
华为适配速度为何如此之快
华为官方表示,这是芯模技术紧密协同的结果。DeepSeek的模型与华为的芯片从一开始就进行了互相适配。
昇腾950超节点通过融合kernel和多流并行技术,大幅降低Attention计算和访存开销。具体而言,华为芯片为DeepSeek模型做了专门优化,实现更高运行效率和更低资源消耗。
性能数据:在8K输入场景下,昇腾950超节点运行DeepSeek V4-Pro模型,单卡Decode吞吐达到4700TPS。这意味着每秒可处理4700个token,相当于每秒生成数千个汉字。这一速度在国产芯片中处于领先水平。
DeepSeek加昇腾的组合意义不仅限于两家企业。它意味着国产大模型可以在国产芯片上高效运行,实现从芯片到模型到应用的完整自主可控链条。这是真正的国产替代方案。
常见问题
问:DeepSeek V4和闭源模型有什么本质区别?
答:DeepSeek V4完全开源,代码公开可下载、可修改、可自部署。闭源模型仅提供API接口,用户无法了解内部机制,也无法自主定制。
问:普通用户如何受益于开源?
答:基于DeepSeek V4开发的应用将快速增加,价格更低,部分免费。用户无需直接操作模型,即可使用更便宜、更透明的AI服务。
问:华为适配速度为什么这么快?
答:DeepSeek和华为在模型与芯片层面进行了前期协同设计,实现了芯模技术紧密配合。昇腾950超节点采用了融合kernel和多流并行等优化技术。
问:国产芯片跑DeepSeek V4的性能如何?
答:在8K输入场景下,昇腾950超节点单卡Decode吞吐达4700TPS,每秒可处理4700个token,性能表现优异。
对普通用户的短期和长期影响
短期影响:基于国产芯片的AI应用将快速增加,部署成本降低导致服务价格下降,部分应用可能免费。
长期影响:国产大模型加国产芯片的组合可能重塑AI产业格局。过去依赖国外芯片运行大模型的局面正在改变,DeepSeek的开源策略将进一步加速生态发展。
在企业AI部署实践中,模型与硬件适配曾是最大瓶颈之一。以往一条完整链路需要数月才能跑通,DeepSeek与华为的协同使效率翻倍。
关于作者:地鼠,地鼠科技CEO,专注AI编程落地和企业AI提效。