DeepSeek-V3 深夜惊爆上新!代码数学飙升剑指 GPT-5,一台 Mac 可跑

【新智元导读】685B 的 DeepSeek-V3 新版本,就在昨夜悄悄上线了。参数量 685B 的 V3,代码数学推理再次显著提升,甚至代码追平 Claude 3.7,网友们实测后大呼强到离谱!有人预测说,按照此前的节奏,DeepSeek-R2 大概率几周内就将上线。

昨晚,DeepSeek-V3 悄然升级!

新模型版本为 DeepSeek-V3-0324,参数量为 6850 亿,相较上个版本参数增幅不大(6710 亿)。

从发布时间和技术特点来看,DeepSeek-V3-0324,很可能是 DeepSeek-R2 的基础架构。

所以按照 DeepSeek 一贯的产品发布节奏(先推出基础模型,几周后再发布专门的推理增强版)来看,DeepSeek-R2 很可能在几周后就将上线!

升级后的 V3 在代码、数学推理能力上,得到显著提升。尤其是代码领域,不少网友直呼「眼前一亮」。

相较于上一版,从一个球在超立方体弹跳的 Python 脚本,即可看出 V3 代码性能的改善。

甚至,它还能解锁 Claude 3.7 Sonnet 很多玩法,代码可以与之正面较量。

值得一提的是,DeepSeek V3 另一大亮点在于采用 MIT 开源协议,上个版本还是自定义许可证。

这不仅可以自由修改、分发模型,还支持模型蒸馏、商业化应用。

模型文件总计 641GB,主要以 model-00035-of-000163.safetensors 形式存在

685B 虽大,但也能在消费级设备上跑起来。

这不,苹果机器学习工程师 Awni Hannun 就基于 MLX 框架和 4-bit 量化,在 512GB M3 Ultra 实现了超过 20 token/s 的运行速度。

这种量化方式直接将模型的磁盘占用空间减少到 352GB。

有 M3 Ultra 的童鞋们,可以按照下面的方式使用 llm-mlx 跑起来:

复制代码
llm mlx download-model mlx-community/DeepSeek-V3-0324-4bit
llm chat -m mlx-community/DeepSeek-V3-0324-4bit

若是本地跑不了的朋友,除了官网之外,还可以在 OpenRouter 上体验。

体验地址:openrouter.ai/chat?models=deepseek/deepseek-chat-v3-0324:free

相比起某些会在发布前数月就开始大肆宣传造势的 O 和 A 开头的 AI 公司,DeepSeek 这种低调办大事的风格可谓是天壤之别。

没有白皮书,没有博客文章,只有一个空白的 README 文件和模型权重本身------上线即可直接可以下载使用。

新版 V3 代码能力飙升,追平 Claude 3.7

遗憾的是,DeepSeek 尚未公布新版模型的系统卡,暂时无法窥探更多技术细节。

官方小助手的更新提示

不过,这并未阻挡全网对新模型的热情,已有机构、网友纷纷对 V3 展开通用能力、代码、数学等多维度的测评。

根据网友 Xeophon 的自测,DeepSeek-V3-0324 所有指标性能暴涨,击败了 Claude 3.5 Sonnet,成为目前最强的非推理模型。

就代码能力来看,DeepSeek-V3-0324 同样能够与 Claude 3.5 Sonnet 一决高下。

另外,在 Aider 的多语言基准测试中,DeepSeek-V3-0324 拿下 55% 成绩,较前代版本显著提升,成为仅次于 Sonnet 3.7 的非推理类模型第二名。

其表现已可媲美 R1 和 o3-mini 等具备推理能力的模型。

网友「karminski - 牙医」还带来了全网最速的代码实测,新模型直接干翻了 DeepSeek R1,与 Claude 3.7 相匹敌。

在 KCORES 大模型竞技场中,Claude-3.7-Sonnet-Thinking 无疑是 LLM 当之无愧的王者,DeepSeek-V3-0324 以 328.3 分拿下第三名,仅次于 Claude 3.5 Sonnet。

他还展开了四项评测,20 个小球碰撞测试,上个版本结果挤成一团,DeepSeek-V3-0324 在物理模拟上表现更好。

|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| | |

在 mandelbrot-set-meet-libai 测试中,DeepSeek-V3-0324 没有过多变化,较初版仅仅低了 2 分,完成度提升很高。

|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| | |

还有火星任务测试中,DeepSeek-V3-0324 星球渲染正确,所有模型中位列第三。

|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| | |

九大行星测试,DeepSeek-V3-0324 真正绘制出了太阳系的完整图。

|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| | |

此外,DeepSeek-V3-0324 在 Misguided Attention 基准上,跃居非推理类模型榜首,甚至超越了 Claude Sonnet 3.7(非推理模型)。

令人惊讶的是,它现在能解决一些此前只有推理模型才能处理的提示,比如「4 升水壶问题」。

V3-0324 似乎学会了识别推理循环,并跳出循环------这种能力甚至是许多专业推理模型都不具备的。

颜色越深代表特定提示的正确响应次数越多

接下来,看看 DeepSeek-V3-0324 在多项实测中的具体表现如何。

网友实测,一个提示即出网页

网友「Deepanshu Sharma」表示,更新后的 DeepSeek-V3-0324 简直「强的过分了」。

他用这个新模型一气呵成创建了一个新网站,编写了 800 多行代码,一次都没有出错!

「看到这些厉害的开源模型不断给大公司施加压力,迫使他们以低成本构建更好的模型,真是太棒了!」Deepanshu 写道。

网友「Risphere」体验完新的 DeepSeek-V3-0324 后表示,其在编码方面已经与 Claude 3.7 Sonnet 处于同一水平上了。

要知道,Claude 模型一直以来都是公认的代码能力最强的模型。

不仅如此,Risphere 甚至认为 DeepSeek-V3-0324 在前端开发方面超越了 o1-pro 和 GPT-4.5!

要知道,o1-pro 可是需要付费 200 美元每月的 ChatGPT Pro 会员才可以体验的模型。

Petri Kuittinen 体验完 DeepSeek-V3-0324 后认为,「Anthropic 和 OpenAI 遇上麻烦了!」。

他使用了一段非常简短的提示词就制作出了一个精美的响应式网页,提示词如下:

Create a great-looking responsive front page for AI company. Include everything in one HTML5 file.

为 AI 公司创建一个看起来很棒的响应式首页。将所有内容包含在一个 HTML5 文件中。

Petri 认为,DeepSeek-V3-0324 是在前端编程上也优于 DeepSeek-R1。

他完成的这个网站共有 958 行代码,包括所有图像,而且也适合手机上观看。

|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| | |

左右滑动查看

不只是编程问题,数学竞赛也难不倒它。

数学博士、奥赛金牌得主 Jasper 用 AIME 2025 中的题目测试了一下 DeepSeek-V3-0324,它顺利解决了。

Jasper 表示,他现在对开源 AI 模型最终获胜更有信心了!

编码智能体 Cline 的速度很快,第一时间更新了 DeepSeek-V3-0324。

他们还给出了使用的理由,DeepSeek-V3-0324 在编码任务上性能与 Claude 3.7 Sonnet 不相上下,价格却低了 53 倍。

不止如此,Cline 还表示,DeepSeek-V3-0324 较之前的版本增加了 60% 的专家(从 160 增加到 256),使用了 FP8 精度训练将计算效率翻倍,不仅使前端编码能力增强,数学与逻辑能力也有所提升。

DeepSeek 注定改变全球 AI 格局

这次 DeepSeek-V3 的突然上线,节奏也与过去他们在圣诞节期间发布 V3、几周后推出 R1 的模式完全吻合。

本来,业界就一直传闻 R2 将在 4 月亮相,V3 的上线基本吹响了 R2 的前奏。

先进开源推理模型的影响,已经不必多说了。如果它们能免费提供,那原本只有财力雄厚的大型机构才能获得的高级 AI 系统,会变得人人可用。

而如果 DeepSeek-R2 能延续 R1 的发展路线,但它很可能会直接单挑 OpenAI 捂着的大炸弹 GPT-5。这就让 OpenAI 靠封闭生态和雄厚资金支持带来的垄断,被彻底打破。

当 OpenAI 和 Anthropic 还在为模型设置付费访问限制时,DeepSeek 已经实现了封闭模型无法达到的爆发式创新。

而中美 AI 差异,已经日渐缩小,全球 AI 格局已被重塑。几个月前,大部分分析师估计,中国在 AI 能力上落后美国 1-2 年,今天这一差距已经缩小至 3-6 个月,甚至呈现中国领先的趋势。

而开源的方式,甚至还解决了中国公司的特殊挑战(受限于英伟达先进芯片),因为更注重在算力有限的情况下达到有竞争力的性能,现在这已成为中国企业的潜在优势。

就像 Android 系统一样,凭着广泛的普及性和数千开发者的集体创新,DeepSeek 很可能最终超越封闭系统。

谁将通过 AI 拥有对世界最大的影响力?让我们拭目以待。

参考资料:HNYZ

venturebeat.com/ai/deepseek...

x.com/TheXeophon/...

x.com/cline/statu...

x.com/karminski3/...

相关推荐
涛思数据(TDengine)32 分钟前
直播预告 | TDgpt 智能体发布 & 时序数据库 TDengine 3.3.6 发布会即将开启
人工智能·时序数据库·tdengine
Wnq100721 小时前
DEEPSEEK 唤醒企业视频第二春
人工智能·嵌入式硬件·物联网·机器人·音视频·iot
蹦蹦跳跳真可爱5892 小时前
Python----计算机视觉处理(Opencv:梯度处理:filiter2D算子,Sobel,Laplacian)
人工智能·python·opencv·计算机视觉
三桥君3 小时前
DeepSeek助力文案,智能音箱如何改变你的生活?
人工智能·生活·智能音箱·deepseek
童欧巴3 小时前
GPT-4o生图20种玩法实测,第一次觉得人类设计师有点危险了
gpt·aigc·openai
蹦蹦跳跳真可爱5893 小时前
Python----计算机视觉处理(Opencv:绘制图像轮廓:寻找轮廓,findContours()函数)
人工智能·python·opencv·计算机视觉
Ronin-Lotus4 小时前
深度学习篇---卷积网络结构
人工智能·python·深度学习·cnn
石硕页4 小时前
智能体是如何学习文档的内容的?【deepseek生成】
人工智能·rag·智能体
訾博ZiBo4 小时前
AI日报 - 2025年03月28日
人工智能
机械心4 小时前
自动驾驶VLA模型技术解析与模型设计
人工智能·机器学习·自动驾驶·vla·端到端自动驾驶