通过近期测试简单聊一下究竟是直接选择Nvidia Spark还是4090/5090 GPU自建环境

按照Nvidia的官方宣传，DGX Spark 采用定制的 DGX OS（基于Ubuntu Linux），预装了 NVIDIA 完整的 AI 软件栈，包括 CUDA Toolkit、cuDNN、PyTorch、TensorFlow、NCCL、Docker、nvidia-docker 等等，开机即可使用 PyTorch 深度学习框架，以及 Ollama 本地大模型管理工具等。这意味着团队和学生不必从零配置环境，上手就能进行深度学习模型开发和实验。DGX Spark 机身小巧（15×15×5.05 cm，<1.5 kg）且采用被动散热设计，可安静地放置在办公桌上而不扰民。

我们拿到这台Nvidia DGX Spark小机器快一个月了，平时只有周六有时间玩个半天时间，前面两个周六大概简单装了一下OpenAI的Whisper用来从我们拍摄的视频提取一些字幕（结果：成功），以及Faster Whisper（结果：失败，目前其调用的底层框架cTranslate2不支持CUDA13！)，结果我们发现了它正式出厂CUDA等配置存在严重问题 - 默认CUDA配置竟然为不使用GPU，而是仅使用CPU！这导致我们开始用Whisper时候性能极差！GPU的利用率也很低！我们研究后不得不删除原装的CUDA 13，然后重新从官网下载支持GPU的CUDA重新安装，后面发现Whiper的性能提升非常大，GPU利用率也基本可以打满；另外我们也发现好多上层应用赖以支撑的cuDNN也没有安装。估计很多人大概在初次使用Spark的时候都没有意识到它预装的CUDA 13默认仅支持GPU这一点。参见下面的输出。

(whisper-env) admin@spark-b91c:~$ python -c "import torch; print(torch.version); print(torch.version.cuda); print(torch.cuda.is_available())"

2.9.0+cpu

None

False

重新卸载出厂CUDA 13然后安装完支持GPU的CUDA 13后，再次检查如下：

(whisper-env) admin@spark-b91c:~$ python

Python 3.12.3 (main, Aug 14 2025, 17:47:21) [GCC 13.3.0] on linux

Type "help", "copyright", "credits" or "license" for more information.

>>> import torch

>>> print(torch.cuda.is_available())

True

>>> print(torch.cuda.get_device_name(0))

/home/admin/whisper-env/lib/python3.12/site-packages/torch/cuda/init.py:283: User Warning:

Found GPU0 NVIDIA GB10 which is of cuda capability 12.1.

Minimum and Maximum cuda capability supported by this version of PyTorch is

(8.0) - (12.0) warnings.warn(NVIDIA GB10

>>>

由于我们自己的时间限制导致针对Spark的测试慢如蜗牛，我们结合最近拿到该Spark的行动较快的国内、外朋友的公开的测试数据来对比一下Spark和桌面级GPU卡4090, 5090在推理上面的性能差异，我们将重点根据每秒钟吐出多少个token来比较这几者的性能差异；当然，这里再次声明一下：这些不是我们自己测试的，我们只是将数据汇总供大家参考一下而已。

先上结论，然后再展开细节比较：

纯"吐 token 速度 / 吞吐量" ：同一规模模型下，单卡 RTX 5090 明显 > RTX 4090 >> DGX Spark 。Spark 大概只有 5090 的 1/3～1/4 左右 decode 速度。
能装多大模型（参数规模） ：Spark 远强于 4090/5090------128GB 统一内存，让它本地跑 70B、甚至 100B+ 的模型更轻松，而单卡 4090/5090 很快就被显存 24GB / 32GB 卡死，需要重度量化和各种 offload。
定位：
- DGX Spark = "能装大模型、方便折腾、吞吐一般"的 Grace Blackwell 小型推理工作站。
- RTX 4090/5090 = "显存有限、但单位时间吐 token 飞快"的 纯算力暴力卡。

下面用上面提到的指标------每秒 token 数（tokens/s） + 算力 / 带宽 来对比一下Spark vs RTX 4090/5090 GPU卡。

1. 硬件层面的"纸面战力"对比（算力 + 内存）

⭐ DGX Spark（GB10 Grace Blackwell 超芯片）

GPU：Blackwell 架构，集成在 GB10 Grace Blackwell Superchip 里。
官方标称：1 PFLOP FP4 AI 性能（带稀疏）。
内存：128GB 统一内存（LPDDR5X） ，CPU/GPU 共享同一地址空间，带宽约 273 GB/s，这是它的关键特征。
定位：LMSYS 的评测里，它的 GPU 纯算力大概 介于 RTX 5070 和 5070 Ti 之间，但胜在内存大、一体化。

⭐ RTX 4090（Ada）

Tensor Core FP8 推理吞吐：最高约 1.3 PFLOPS。
Tensor Core FP16：约 165 TFLOPS。
显存：24GB GDDR6X ，带宽约 1008 GB/s。

⭐ RTX 5090（Blackwell GeForce）

FP16 计算：约 104.8 TFLOPS（标称 non-tensor），相对 4090 提升约 27%。
新一代 Tensor Core 支持 FP8/FP4，FP8 实测大约 400+ TFLOPS 级别，FP4 在 TensorRT-LLM 下可以进一步翻倍。
显存：32GB GDDR7（带宽更高，官方资料给的是比 4090 明显提升）。

👉 纸面结论：

纯算力：单卡 5090 ≫ 4090 > DGX Spark（GB10）。
带宽：5090 ≳ 4090 远高于 Spark 的 LPDDR5X 统一内存带宽。
内存容量：Spark 128GB ≫ 5090 32GB > 4090 24GB。

也就是说：4090/5090 = 算力怪兽，Spark = 大内存怪兽。

2. 真实 LLM 推理：每秒 token 数对比

这里选几组有代表性的公开基准（都跟我们关心的 tokens/s 直接相关）：

2.1 中等模型（20B 级）------Spark vs 5090

LMSYS 对 DGX Spark 做过和 RTX 5090 的直接对比，模型是 GPT-OSS 20B（Ollama，MXFP4 量化）：

DGX Spark（GB10）
- 预填充（prefill）：约 2053 tokens/s
- 生成（decode）：约 49.7 tokens/s
RTX 5090 单卡
- 预填充：8519 tokens/s
- 生成：205 tokens/s

🔍 换算一下：

同一模型、同一框架 下，
- 5090 的 decode 速度 ≈ Spark 的 4.1 倍
- prefill（批量吞吐）也是大概 4× 级别差距

结论： 在 20B 级别模型、量化到 FP4 的前提下，单卡 5090 是 Spark 的 4 倍左右 token/s。

2.2 中大模型（70B 级）------Spark 能跑，消费卡开始吃力

还是同一篇评测：LMSYS 在 DGX Spark 上跑了 Llama 3.1 70B（FP8）：

DGX Spark：
- 预填充：803 tokens/s
- 生成：2.7 tokens/s

注意几点：

70B FP8 是 全模型载入 到 Spark 的 128GB 统一内存里。
单卡 4090/5090 要想跑 70B：
- 要么非常激进的 4bit / 3bit 量化 + KV cache 压缩
- 要么多卡拼（PCIe Gen4/Gen5 带来的通信瓶颈）
- 要么做一堆 offload 技巧（prefill-decode 拆分、CPU offload、分页 KV cache 等）

所以这里更像是：

Spark 用"单机一体化"的方式硬吃下 70B 模型；
4090/5090 单卡基本只能"勉强玩"一下 70B（重度量化 + 带宽/显存折腾）。

实用角度：

如果你希望"本地就能非常自然地跑 70B 模型"，Spark 的体验会比较顺畅（虽然 tokens/s 不快）。
4090/5090 在 70B 场景下，要么多卡，要么接受一堆工程折腾和速度 trade-off。

2.3 30B 级模型------4090 vs 5090 的差距

CloudRift 针对 Qwen3-Coder-30B 4bit AWQ 用 vLLM 做了吞吐 benchmark，给出了很直观的单卡 tokens/s 对比：

1× RTX 4090：约 2259 tokens/s

1× RTX 5090：约 4570 tokens/s

也就是说：

5090 在这个 30B 级 INT4 模型上，大约是 4090 的 2× 吞吐
和前面的 20B 结果结合，可以粗略认为：
- Spark：1 份
- 4090：≈2～2.5 份
- 5090：≈4 份

（不同模型/框架数值会变，但量级差不多就是这样。）

2.4 小模型（1B～8B）的一般情况

以 LocalScore 上 RTX 4090 跑 Llama/Qwen 的结果为例：

Llama 3.2 1B Q4_K：
- 生成约 382 tokens/s
Llama 3.2 8B Q4_K：
- 生成约 78.7 tokens/s

5090 在同类小模型上，一般能再快 30～70%，取决于是否用到 FP8/FP4 + TensorRT-LLM 的优化。

DGX Spark 在 Llama 3.1 8B 上（SGLang，FP8）实际测试：

batch 1：
- prefill：7991 tokens/s
- decode：20.5 tokens/s
batch 32：
- prefill 依旧 ~7950 tokens/s
- decode 提升到 368 tokens/s（多并发场景）

可以看出：

Spark 跑 8B，小 batch 下单流推理并不快，单流大约 20 tokens/s 级别
但一旦做批处理，它的吞吐就上去了（因为 8B 不太吃带宽，瓶颈转成算力和软件调度）。

而 4090/5090 在 8B 上，单流 decode 也能轻松几十～上百 tokens/s，批量下吞吐更高。

3. 总体对比小结

🔹 纯"每秒吐多少 token？"

中小模型（≤30B，量化到 4bit/FP8）
- RTX 5090 ：单卡 decode 吞吐 ≈ Spark 的 3～4× ，≈ 4090 的 1.5～2×。
- RTX 4090 ：单卡 ≈ Spark 的 1.5～2×。
- DGX Spark：可以跑，但吞吐明显慢于主流桌面卡。
大模型（70B 甚至 100B+）
- Spark：单机原生就能装下、跑起来，只是 decode tokens/s 很一般（几个～十几个 tok/s 量级）。
- 4090/5090 单卡：显存限制非常明显，需要重度量化 / 多卡 / 各种工程 hack。

🔹 能装多大模型？

Spark：128GB 统一内存，官方宣传本地可推理到 200B 参数规模（FP4）。
4090：24GB 显存，单卡一般舒适范围在 8B～14B（高精度），到 70B 只能靠 4bit+ 折腾。
5090：32GB 显存，略宽裕一点，但本质仍然是"中小模型 + 高吞吐"定位。

🔹 场景建议

如果你主要需求是：
- 本地高并发推理（例如自己搭服务、whisper 转码、LLM API，多用户多请求）
- 模型规模大多在 8B～30B 👉 4090 / 5090 更合适 ，尤其 5090，性价比非常好。
如果你更在意：
- 能在桌面上 "干干净净地本地跑 70B～120B 模型"
- 不想折腾多卡 / 显存 offload / 复杂部署
- 更像一个"小型实验室工作站"，而不是纯算力引擎 👉 DGX Spark 很香 ，它的核心价值是 128GB 统一内存 + 完整 Blackwell 软件栈，而不是每秒能吐多少 token。