
按照Nvidia的官方宣传,DGX Spark 采用定制的 DGX OS(基于Ubuntu Linux),预装了 NVIDIA 完整的 AI 软件栈,包括 CUDA Toolkit、cuDNN、PyTorch、TensorFlow、NCCL、Docker、nvidia-docker 等等,开机即可使用 PyTorch 深度学习框架,以及 Ollama 本地大模型管理工具等。这意味着团队和学生不必从零配置环境,上手就能进行深度学习模型开发和实验。DGX Spark 机身小巧(15×15×5.05 cm,<1.5 kg)且采用被动散热设计,可安静地放置在办公桌上而不扰民。
我们拿到这台Nvidia DGX Spark小机器快一个月了,平时只有周六有时间玩个半天时间,前面两个周六大概简单装了一下OpenAI的Whisper用来从我们拍摄的视频提取一些字幕(结果:成功),以及Faster Whisper(结果:失败,目前其调用的底层框架cTranslate2不支持CUDA13!),结果我们发现了它正式出厂CUDA等配置存在严重问题 - 默认CUDA配置竟然为不使用GPU,而是仅使用CPU!这导致我们开始用Whisper时候性能极差!GPU的利用率也很低!我们研究后不得不删除原装的CUDA 13,然后重新从官网下载支持GPU的CUDA重新安装,后面发现Whiper的性能提升非常大,GPU利用率也基本可以打满;另外我们也发现好多上层应用赖以支撑的cuDNN也没有安装。估计很多人大概在初次使用Spark的时候都没有意识到它预装的CUDA 13默认仅支持GPU这一点。参见下面的输出。
(whisper-env) admin@spark-b91c:~$ python -c "import torch; print(torch.version); print(torch.version.cuda); print(torch.cuda.is_available())"
2.9.0+cpu
None
False
重新卸载出厂CUDA 13然后安装完支持GPU的CUDA 13后,再次检查如下:
(whisper-env) admin@spark-b91c:~$ python
Python 3.12.3 (main, Aug 14 2025, 17:47:21) [GCC 13.3.0] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import torch
>>> print(torch.cuda.is_available())
True
>>> print(torch.cuda.get_device_name(0))
/home/admin/whisper-env/lib/python3.12/site-packages/torch/cuda/init.py:283: User Warning:
Found GPU0 NVIDIA GB10 which is of cuda capability 12.1.
Minimum and Maximum cuda capability supported by this version of PyTorch is
(8.0) - (12.0) warnings.warn(NVIDIA GB10
>>>

由于我们自己的时间限制导致针对Spark的测试慢如蜗牛,我们结合最近拿到该Spark的行动较快的国内、外朋友的公开的测试数据来对比一下Spark和桌面级GPU卡4090, 5090在推理上面的性能差异,我们将重点根据每秒钟吐出多少个token来比较这几者的性能差异;当然,这里再次声明一下:这些不是我们自己测试的,我们只是将数据汇总供大家参考一下而已。
先上结论,然后再展开细节比较:
-
纯"吐 token 速度 / 吞吐量" :同一规模模型下,单卡 RTX 5090 明显 > RTX 4090 >> DGX Spark 。Spark 大概只有 5090 的 1/3~1/4 左右 decode 速度。
-
能装多大模型(参数规模) :Spark 远强于 4090/5090------128GB 统一内存,让它本地跑 70B、甚至 100B+ 的模型更轻松,而单卡 4090/5090 很快就被显存 24GB / 32GB 卡死,需要重度量化和各种 offload。
-
定位:
-
DGX Spark = "能装大模型、方便折腾、吞吐一般"的 Grace Blackwell 小型推理工作站。
-
RTX 4090/5090 = "显存有限、但单位时间吐 token 飞快"的 纯算力暴力卡。
-
下面用上面提到的指标------每秒 token 数(tokens/s) + 算力 / 带宽 来对比一下Spark vs RTX 4090/5090 GPU卡。

1. 硬件层面的"纸面战力"对比(算力 + 内存)
⭐ DGX Spark(GB10 Grace Blackwell 超芯片)
-
GPU:Blackwell 架构,集成在 GB10 Grace Blackwell Superchip 里。
-
官方标称:1 PFLOP FP4 AI 性能(带稀疏)。
-
内存:128GB 统一内存(LPDDR5X) ,CPU/GPU 共享同一地址空间,带宽约 273 GB/s,这是它的关键特征。
-
定位:LMSYS 的评测里,它的 GPU 纯算力大概 介于 RTX 5070 和 5070 Ti 之间,但胜在内存大、一体化。
⭐ RTX 4090(Ada)
-
Tensor Core FP8 推理吞吐:最高约 1.3 PFLOPS。
-
Tensor Core FP16:约 165 TFLOPS。
-
显存:24GB GDDR6X ,带宽约 1008 GB/s。
⭐ RTX 5090(Blackwell GeForce)
-
FP16 计算:约 104.8 TFLOPS(标称 non-tensor),相对 4090 提升约 27%。
-
新一代 Tensor Core 支持 FP8/FP4,FP8 实测大约 400+ TFLOPS 级别,FP4 在 TensorRT-LLM 下可以进一步翻倍。
-
显存:32GB GDDR7(带宽更高,官方资料给的是比 4090 明显提升)。
👉 纸面结论:
-
纯算力:单卡 5090 ≫ 4090 > DGX Spark(GB10)。
-
带宽:5090 ≳ 4090 远高于 Spark 的 LPDDR5X 统一内存带宽。
-
内存容量:Spark 128GB ≫ 5090 32GB > 4090 24GB。
也就是说:4090/5090 = 算力怪兽,Spark = 大内存怪兽。
2. 真实 LLM 推理:每秒 token 数对比
这里选几组有代表性的公开基准(都跟我们关心的 tokens/s 直接相关):
2.1 中等模型(20B 级)------Spark vs 5090
LMSYS 对 DGX Spark 做过和 RTX 5090 的直接对比,模型是 GPT-OSS 20B(Ollama,MXFP4 量化):
-
DGX Spark(GB10)
-
预填充(prefill):约 2053 tokens/s
-
生成(decode):约 49.7 tokens/s
-
-
RTX 5090 单卡
-
预填充:8519 tokens/s
-
生成:205 tokens/s
-
🔍 换算一下:
-
同一模型、同一框架 下,
-
5090 的 decode 速度 ≈ Spark 的 4.1 倍
-
prefill(批量吞吐)也是大概 4× 级别差距
-
结论: 在 20B 级别模型、量化到 FP4 的前提下,单卡 5090 是 Spark 的 4 倍左右 token/s。
2.2 中大模型(70B 级)------Spark 能跑,消费卡开始吃力
还是同一篇评测:LMSYS 在 DGX Spark 上跑了 Llama 3.1 70B(FP8):
-
DGX Spark:
-
预填充:803 tokens/s
-
生成:2.7 tokens/s
-
注意几点:
-
70B FP8 是 全模型载入 到 Spark 的 128GB 统一内存里。
-
单卡 4090/5090 要想跑 70B:
-
要么非常激进的 4bit / 3bit 量化 + KV cache 压缩
-
要么多卡拼(PCIe Gen4/Gen5 带来的通信瓶颈)
-
要么做一堆 offload 技巧(prefill-decode 拆分、CPU offload、分页 KV cache 等)
-
所以这里更像是:
-
Spark 用"单机一体化"的方式硬吃下 70B 模型;
-
4090/5090 单卡基本只能"勉强玩"一下 70B(重度量化 + 带宽/显存折腾)。
实用角度:
-
如果你希望"本地就能非常自然地跑 70B 模型",Spark 的体验会比较顺畅(虽然 tokens/s 不快)。
-
4090/5090 在 70B 场景下,要么多卡,要么接受一堆工程折腾和速度 trade-off。
2.3 30B 级模型------4090 vs 5090 的差距
CloudRift 针对 Qwen3-Coder-30B 4bit AWQ 用 vLLM 做了吞吐 benchmark,给出了很直观的单卡 tokens/s 对比:
1× RTX 4090:约 2259 tokens/s
1× RTX 5090:约 4570 tokens/s
也就是说:
-
5090 在这个 30B 级 INT4 模型上,大约是 4090 的 2× 吞吐
-
和前面的 20B 结果结合,可以粗略认为:
-
Spark:1 份
-
4090:≈2~2.5 份
-
5090:≈4 份
-
(不同模型/框架数值会变,但量级差不多就是这样。)
2.4 小模型(1B~8B)的一般情况
以 LocalScore 上 RTX 4090 跑 Llama/Qwen 的结果为例:
-
Llama 3.2 1B Q4_K:
- 生成约 382 tokens/s
-
Llama 3.2 8B Q4_K:
- 生成约 78.7 tokens/s
5090 在同类小模型上,一般能再快 30~70%,取决于是否用到 FP8/FP4 + TensorRT-LLM 的优化。
DGX Spark 在 Llama 3.1 8B 上(SGLang,FP8)实际测试:
-
batch 1:
-
prefill:7991 tokens/s
-
decode:20.5 tokens/s
-
-
batch 32:
-
prefill 依旧 ~7950 tokens/s
-
decode 提升到 368 tokens/s(多并发场景)
-
可以看出:
-
Spark 跑 8B,小 batch 下单流推理并不快,单流大约 20 tokens/s 级别
-
但一旦做批处理,它的吞吐就上去了(因为 8B 不太吃带宽,瓶颈转成算力和软件调度)。
而 4090/5090 在 8B 上,单流 decode 也能轻松几十~上百 tokens/s,批量下吞吐更高。
3. 总体对比小结
🔹 纯"每秒吐多少 token?"
-
中小模型(≤30B,量化到 4bit/FP8)
-
RTX 5090 :单卡 decode 吞吐 ≈ Spark 的 3~4× ,≈ 4090 的 1.5~2×。
-
RTX 4090 :单卡 ≈ Spark 的 1.5~2×。
-
DGX Spark:可以跑,但吞吐明显慢于主流桌面卡。
-
-
大模型(70B 甚至 100B+)
-
Spark:单机原生就能装下、跑起来,只是 decode tokens/s 很一般(几个~十几个 tok/s 量级)。
-
4090/5090 单卡:显存限制非常明显,需要重度量化 / 多卡 / 各种工程 hack。
-
🔹 能装多大模型?
-
Spark:128GB 统一内存,官方宣传本地可推理到 200B 参数规模(FP4)。
-
4090:24GB 显存,单卡一般舒适范围在 8B~14B(高精度),到 70B 只能靠 4bit+ 折腾。
-
5090:32GB 显存,略宽裕一点,但本质仍然是"中小模型 + 高吞吐"定位。
🔹 场景建议
-
如果你主要需求是:
-
本地高并发推理(例如自己搭服务、whisper 转码、LLM API,多用户多请求)
-
模型规模大多在 8B~30B 👉 4090 / 5090 更合适 ,尤其 5090,性价比非常好。
-
-
如果你更在意:
-
能在桌面上 "干干净净地本地跑 70B~120B 模型"
-
不想折腾多卡 / 显存 offload / 复杂部署
-
更像一个"小型实验室工作站",而不是纯算力引擎 👉 DGX Spark 很香 ,它的核心价值是 128GB 统一内存 + 完整 Blackwell 软件栈,而不是每秒能吐多少 token。
-