通过近期测试简单聊一下究竟是直接选择Nvidia Spark还是4090/5090 GPU自建环境

按照Nvidia的官方宣传,DGX Spark 采用定制的 DGX OS(基于Ubuntu Linux),预装了 NVIDIA 完整的 AI 软件栈,包括 CUDA Toolkit、cuDNN、PyTorch、TensorFlow、NCCL、Docker、nvidia-docker 等等,开机即可使用 PyTorch 深度学习框架,以及 Ollama 本地大模型管理工具等。这意味着团队和学生不必从零配置环境,上手就能进行深度学习模型开发和实验。DGX Spark 机身小巧(15×15×5.05 cm,<1.5 kg)且采用被动散热设计,可安静地放置在办公桌上而不扰民。

我们拿到这台Nvidia DGX Spark小机器快一个月了,平时只有周六有时间玩个半天时间,前面两个周六大概简单装了一下OpenAI的Whisper用来从我们拍摄的视频提取一些字幕(结果:成功),以及Faster Whisper(结果:失败,目前其调用的底层框架cTranslate2不支持CUDA13!),结果我们发现了它正式出厂CUDA等配置存在严重问题 - 默认CUDA配置竟然为不使用GPU,而是仅使用CPU!这导致我们开始用Whisper时候性能极差!GPU的利用率也很低!我们研究后不得不删除原装的CUDA 13,然后重新从官网下载支持GPU的CUDA重新安装,后面发现Whiper的性能提升非常大,GPU利用率也基本可以打满;另外我们也发现好多上层应用赖以支撑的cuDNN也没有安装。估计很多人大概在初次使用Spark的时候都没有意识到它预装的CUDA 13默认仅支持GPU这一点。参见下面的输出。

(whisper-env) admin@spark-b91c:~$ python -c "import torch; print(torch.version); print(torch.version.cuda); print(torch.cuda.is_available())"

2.9.0+cpu

None

False

重新卸载出厂CUDA 13然后安装完支持GPU的CUDA 13后,再次检查如下:

(whisper-env) admin@spark-b91c:~$ python

Python 3.12.3 (main, Aug 14 2025, 17:47:21) [GCC 13.3.0] on linux

Type "help", "copyright", "credits" or "license" for more information.

>>> import torch

>>> print(torch.cuda.is_available())

True

>>> print(torch.cuda.get_device_name(0))

/home/admin/whisper-env/lib/python3.12/site-packages/torch/cuda/init.py:283: User Warning:

Found GPU0 NVIDIA GB10 which is of cuda capability 12.1.

Minimum and Maximum cuda capability supported by this version of PyTorch is

(8.0) - (12.0) warnings.warn(NVIDIA GB10

>>>

由于我们自己的时间限制导致针对Spark的测试慢如蜗牛,我们结合最近拿到该Spark的行动较快的国内、外朋友的公开的测试数据来对比一下Spark和桌面级GPU卡4090, 5090在推理上面的性能差异,我们将重点根据每秒钟吐出多少个token来比较这几者的性能差异;当然,这里再次声明一下:这些不是我们自己测试的,我们只是将数据汇总供大家参考一下而已。

先上结论,然后再展开细节比较:

  • 纯"吐 token 速度 / 吞吐量" :同一规模模型下,单卡 RTX 5090 明显 > RTX 4090 >> DGX Spark 。Spark 大概只有 5090 的 1/3~1/4 左右 decode 速度

  • 能装多大模型(参数规模)Spark 远强于 4090/5090------128GB 统一内存,让它本地跑 70B、甚至 100B+ 的模型更轻松,而单卡 4090/5090 很快就被显存 24GB / 32GB 卡死,需要重度量化和各种 offload。

  • 定位

    • DGX Spark = "能装大模型、方便折腾、吞吐一般"的 Grace Blackwell 小型推理工作站

    • RTX 4090/5090 = "显存有限、但单位时间吐 token 飞快"的 纯算力暴力卡

下面用上面提到的指标------每秒 token 数(tokens/s) + 算力 / 带宽 来对比一下Spark vs RTX 4090/5090 GPU卡。


1. 硬件层面的"纸面战力"对比(算力 + 内存)

⭐ DGX Spark(GB10 Grace Blackwell 超芯片)

  • GPU:Blackwell 架构,集成在 GB10 Grace Blackwell Superchip 里。

  • 官方标称:1 PFLOP FP4 AI 性能(带稀疏)

  • 内存:128GB 统一内存(LPDDR5X) ,CPU/GPU 共享同一地址空间,带宽约 273 GB/s,这是它的关键特征。

  • 定位:LMSYS 的评测里,它的 GPU 纯算力大概 介于 RTX 5070 和 5070 Ti 之间,但胜在内存大、一体化。

⭐ RTX 4090(Ada)

  • Tensor Core FP8 推理吞吐:最高约 1.3 PFLOPS

  • Tensor Core FP16:约 165 TFLOPS

  • 显存:24GB GDDR6X ,带宽约 1008 GB/s

⭐ RTX 5090(Blackwell GeForce)

  • FP16 计算:约 104.8 TFLOPS(标称 non-tensor),相对 4090 提升约 27%。

  • 新一代 Tensor Core 支持 FP8/FP4,FP8 实测大约 400+ TFLOPS 级别,FP4 在 TensorRT-LLM 下可以进一步翻倍。

  • 显存:32GB GDDR7(带宽更高,官方资料给的是比 4090 明显提升)。

👉 纸面结论

  • 纯算力:单卡 5090 ≫ 4090 > DGX Spark(GB10)

  • 带宽:5090 ≳ 4090 远高于 Spark 的 LPDDR5X 统一内存带宽。

  • 内存容量:Spark 128GB ≫ 5090 32GB > 4090 24GB

也就是说:4090/5090 = 算力怪兽,Spark = 大内存怪兽


2. 真实 LLM 推理:每秒 token 数对比

这里选几组有代表性的公开基准(都跟我们关心的 tokens/s 直接相关):

2.1 中等模型(20B 级)------Spark vs 5090

LMSYS 对 DGX Spark 做过和 RTX 5090 的直接对比,模型是 GPT-OSS 20B(Ollama,MXFP4 量化):

  • DGX Spark(GB10)

    • 预填充(prefill):约 2053 tokens/s

    • 生成(decode):约 49.7 tokens/s

  • RTX 5090 单卡

    • 预填充:8519 tokens/s

    • 生成:205 tokens/s

🔍 换算一下:

  • 同一模型、同一框架 下,

    • 5090 的 decode 速度 ≈ Spark 的 4.1 倍

    • prefill(批量吞吐)也是大概 级别差距

结论: 在 20B 级别模型、量化到 FP4 的前提下,单卡 5090 是 Spark 的 4 倍左右 token/s


2.2 中大模型(70B 级)------Spark 能跑,消费卡开始吃力

还是同一篇评测:LMSYS 在 DGX Spark 上跑了 Llama 3.1 70B(FP8)

  • DGX Spark:

    • 预填充:803 tokens/s

    • 生成:2.7 tokens/s

注意几点:

  1. 70B FP8 是 全模型载入 到 Spark 的 128GB 统一内存里。

  2. 单卡 4090/5090 要想跑 70B:

    • 要么非常激进的 4bit / 3bit 量化 + KV cache 压缩

    • 要么多卡拼(PCIe Gen4/Gen5 带来的通信瓶颈)

    • 要么做一堆 offload 技巧(prefill-decode 拆分、CPU offload、分页 KV cache 等)

所以这里更像是:

  • Spark 用"单机一体化"的方式硬吃下 70B 模型

  • 4090/5090 单卡基本只能"勉强玩"一下 70B(重度量化 + 带宽/显存折腾)。

实用角度:

  • 如果你希望"本地就能非常自然地跑 70B 模型",Spark 的体验会比较顺畅(虽然 tokens/s 不快)。

  • 4090/5090 在 70B 场景下,要么多卡,要么接受一堆工程折腾和速度 trade-off。


2.3 30B 级模型------4090 vs 5090 的差距

CloudRift 针对 Qwen3-Coder-30B 4bit AWQ 用 vLLM 做了吞吐 benchmark,给出了很直观的单卡 tokens/s 对比

1× RTX 4090:约 2259 tokens/s

1× RTX 5090:约 4570 tokens/s

也就是说:

  • 5090 在这个 30B 级 INT4 模型上,大约是 4090 的 2× 吞吐

  • 和前面的 20B 结果结合,可以粗略认为:

    • Spark:1 份

    • 4090:≈2~2.5 份

    • 5090:≈4 份

(不同模型/框架数值会变,但量级差不多就是这样。)


2.4 小模型(1B~8B)的一般情况

以 LocalScore 上 RTX 4090 跑 Llama/Qwen 的结果为例:

  • Llama 3.2 1B Q4_K:

    • 生成约 382 tokens/s
  • Llama 3.2 8B Q4_K:

    • 生成约 78.7 tokens/s

5090 在同类小模型上,一般能再快 30~70%,取决于是否用到 FP8/FP4 + TensorRT-LLM 的优化。

DGX Spark 在 Llama 3.1 8B 上(SGLang,FP8)实际测试:

  • batch 1:

    • prefill:7991 tokens/s

    • decode:20.5 tokens/s

  • batch 32:

    • prefill 依旧 ~7950 tokens/s

    • decode 提升到 368 tokens/s(多并发场景)

可以看出:

  • Spark 跑 8B,小 batch 下单流推理并不快,单流大约 20 tokens/s 级别

  • 但一旦做批处理,它的吞吐就上去了(因为 8B 不太吃带宽,瓶颈转成算力和软件调度)。

而 4090/5090 在 8B 上,单流 decode 也能轻松几十~上百 tokens/s,批量下吞吐更高。


3. 总体对比小结

🔹 纯"每秒吐多少 token?"

  • 中小模型(≤30B,量化到 4bit/FP8)

    • RTX 5090 :单卡 decode 吞吐 ≈ Spark 的 3~4× ,≈ 4090 的 1.5~2×

    • RTX 4090 :单卡 ≈ Spark 的 1.5~2×

    • DGX Spark:可以跑,但吞吐明显慢于主流桌面卡。

  • 大模型(70B 甚至 100B+)

    • Spark:单机原生就能装下、跑起来,只是 decode tokens/s 很一般(几个~十几个 tok/s 量级)。

    • 4090/5090 单卡:显存限制非常明显,需要重度量化 / 多卡 / 各种工程 hack。

🔹 能装多大模型?

  • Spark:128GB 统一内存,官方宣传本地可推理到 200B 参数规模(FP4)。

  • 4090:24GB 显存,单卡一般舒适范围在 8B~14B(高精度),到 70B 只能靠 4bit+ 折腾。

  • 5090:32GB 显存,略宽裕一点,但本质仍然是"中小模型 + 高吞吐"定位。

🔹 场景建议

  • 如果你主要需求是:

    • 本地高并发推理(例如自己搭服务、whisper 转码、LLM API,多用户多请求)

    • 模型规模大多在 8B~30B 👉 4090 / 5090 更合适 ,尤其 5090,性价比非常好。

  • 如果你更在意:

    • 能在桌面上 "干干净净地本地跑 70B~120B 模型"

    • 不想折腾多卡 / 显存 offload / 复杂部署

    • 更像一个"小型实验室工作站",而不是纯算力引擎 👉 DGX Spark 很香 ,它的核心价值是 128GB 统一内存 + 完整 Blackwell 软件栈,而不是每秒能吐多少 token。

相关推荐
还不秃顶的计科生2 小时前
如何快速用cmd知道某个文件夹下的子文件以及子文件夹的这个目录分支具体的分支结构
人工智能
赖small强2 小时前
【Linux驱动开发】Linux MMC子系统技术分析报告 - 第二部分:协议实现与性能优化
linux·驱动开发·mmc
九河云2 小时前
不同级别华为云代理商的增值服务内容与质量差异分析
大数据·服务器·人工智能·科技·华为云
阿里云大数据AI技术2 小时前
【跨国数仓迁移最佳实践 12】阿里云 MaxCompute 实现 BigQuery 10 万条 SQL 智能转写迁移
大数据·sql
Elastic 中国社区官方博客2 小时前
Elasticsearch:Microsoft Azure AI Foundry Agent Service 中用于提供可靠信息和编排的上下文引擎
大数据·人工智能·elasticsearch·microsoft·搜索引擎·全文检索·azure
SongYuLong的博客2 小时前
Ubuntu24.04搭建GitLab服务器
运维·服务器·gitlab
大模型真好玩2 小时前
Gemini3.0深度解析,它在重新定义智能,会是前端工程师噩梦吗?
人工智能·agent·deepseek
机器之心3 小时前
AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型
人工智能·openai
AAA修煤气灶刘哥3 小时前
从Coze、Dify到Y-Agent Studio:我的Agent开发体验大升级
人工智能·低代码·agent
陈佬昔没带相机3 小时前
MiniMax M2 + Trae 编码评测:能否与 Claude 4.5 扳手腕?
前端·人工智能·ai编程