数据来源:GitHub Discussion #16578 + 社区基准测试
测试模型:Llama 2 7B Q4_0(标准化)
📊 核心性能对比表(Llama 2 7B Q4_0)
无 Flash Attention
| 排名 |
设备 |
平台 |
显存/内存 |
PP512 (t/s) |
TG128 (t/s) |
来源 |
| 1 |
RTX 5090 |
CUDA |
32GB GDDR7 |
14073 |
290 |
#15013 |
| 2 |
RTX PRO 6000 Blackwell |
CUDA |
96GB GDDR7 |
14855 |
274 |
#15013 |
| 3 |
H100 80GB |
CUDA |
80GB HBM3 |
9918 |
268 |
#15013 |
| 4 |
RTX 4090 |
CUDA |
24GB GDDR6X |
11993 |
186 |
#15013 |
| 5 |
RTX 5080 |
CUDA |
16GB GDDR7 |
8297 |
182 |
#15013 |
| 6 |
RTX 3090 |
CUDA |
24GB GDDR6X |
5175 |
158 |
#15013 |
| 7 |
DGX Spark |
CUDA |
128GB LPDDR5x |
3062 |
57 |
#16578 |
| 8 |
M2 Ultra (76GPU) |
Metal |
128GB 统一 |
1402 |
41 |
#4167 |
| 9 |
M3 Ultra (80GPU) |
Metal |
128GB 统一 |
1538 |
40 |
#4167 |
| 10 |
RX 7900 XTX |
Vulkan |
24GB GDDR6 |
3532 |
191 |
#10879 |
| 11 |
MI300X |
ROCm |
192GB HBM3 |
11476 |
233 |
#15021 |
有 Flash Attention
| 排名 |
设备 |
平台 |
显存/内存 |
PP512 (t/s) |
TG128 (t/s) |
提升 |
| 1 |
RTX 5090 |
CUDA |
32GB GDDR7 |
16619 |
300 |
+18% |
| 2 |
RTX PRO 6000 Blackwell |
CUDA |
96GB GDDR7 |
14970 |
281 |
+1% |
| 3 |
H100 80GB |
CUDA |
80GB HBM3 |
11263 |
281 |
+14% |
| 4 |
RTX 4090 |
CUDA |
24GB GDDR6X |
14771 |
189 |
+23% |
| 5 |
RTX 5080 |
CUDA |
16GB GDDR7 |
9488 |
185 |
+14% |
| 6 |
RTX 3090 |
CUDA |
24GB GDDR6X |
6924 |
172 |
+34% |
| 7 |
DGX Spark |
CUDA |
128GB LPDDR5x |
待补充 |
待补充 |
- |
| 8 |
M2 Ultra (76GPU) |
Metal |
128GB 统一 |
1561 |
43 |
+11% |
| 9 |
RX 7900 XTX |
Vulkan |
24GB GDDR6 |
3874 |
170 |
+10% |
| 10 |
MI300X |
ROCm |
192GB HBM3 |
11946 |
219 |
+4% |
🎯 NVIDIA DGX Spark 详细性能数据
多模型基准测试(来自官方基准文件)
| 模型 |
大小 |
量化 |
PP512 (t/s) |
TG128 (t/s) |
显存占用 |
| gpt-oss 20B |
11.27 GiB |
MXFP4 MoE |
4506 |
83 |
11GB |
| gpt-oss 120B |
59.02 GiB |
MXFP4 MoE |
2444 |
59 |
59GB |
| qwen3moe 30B |
30.25 GiB |
Q8_0 |
2987 |
61 |
30GB |
| qwen2 7B |
7.54 GiB |
Q8_0 |
2250 |
29 |
8GB |
| gemma3 4B |
2.35 GiB |
Q4_0 |
5949 |
81 |
2GB |
| deepseek2 30B |
29.65 GiB |
Q8_0 |
2364 |
49 |
30GB |
| qwen3vlmoe 235B |
124.91 GiB |
Q4_K |
529 |
13 |
125GB |
| qwen3next 80B |
44.73 GiB |
MXFP4 MoE |
1743 |
49 |
45GB |
| qwen35moe 35B |
20.09 GiB |
Q4_K |
2789 |
60 |
20GB |
| qwen35moe 122B |
69.53 GiB |
Q4_K |
1075 |
21 |
70GB |
| gpt-oss 20B |
11.04 GiB |
Q4_K |
4453 |
86 |
11GB |
| gpt-oss 120B |
58.68 GiB |
Q4_K |
2444 |
62 |
59GB |
DGX Spark 上下文长度性能(Llama 2 7B Q4_0)
| 上下文长度 |
PP 速度 (t/s) |
TG 速度 (t/s) |
总耗时 (秒) |
| 512 |
1896 |
80 |
0.67 |
| 4096 |
4514 |
79 |
1.32 |
| 8192 |
4406 |
74 |
2.29 |
| 16384 |
4430 |
98 |
4.35 |
| 32768 |
4426 |
134 |
8.36 |
| 65792 |
4428 |
209 |
16.02 |
| 131584 |
4429 |
294 |
31.34 |
| 263168 |
4430 |
391 |
61.79 |
📈 关键发现
1. DGX Spark 性能定位
| 对比维度 |
结果 |
| vs RTX 4090 |
DGX Spark PP512 约 25%,TG128 约 30% |
| vs RTX 3090 |
DGX Spark PP512 约 60%,TG128 约 36% |
| vs M2 Ultra |
DGX Spark PP512 约 218%,TG128 约 139% |
| vs MI300X |
DGX Spark PP512 约 27%,TG128 约 25% |
2. Flash Attention 影响
| 设备类型 |
PP512 提升 |
TG128 提升 |
| RTX 5090 |
+18% |
+3% |
| RTX 4090 |
+23% |
+2% |
| RTX 3090 |
+34% |
+9% |
| M2 Ultra |
+11% |
+5% |
| RX 7900 XTX |
+10% |
-11% |
| MI300X |
+4% |
-6% |
3. 性价比分析(按 TG128 t/s per USD)
| 设备 |
价格 (USD) |
TG128 (t/s) |
性价比 |
| RTX 3090 (二手) |
~700 |
158 |
0.226 |
| RTX 4090 |
~1600 |
186 |
0.116 |
| RTX 5090 |
~2000 |
290 |
0.145 |
| DGX Spark |
~4000 |
57 |
0.014 |
| MI300X |
~30000 |
233 |
0.008 |
💡 DGX Spark 优势不在于原始性能,而在于128GB 统一内存可运行超大模型(200B+)
🔍 同芯片跨后端对比
| GPU |
CUDA (PP/TG) |
Vulkan (PP/TG) |
ROCm (PP/TG) |
最佳后端 |
| RTX 4090 |
11993 / 186 |
9452 / 188 |
- |
CUDA |
| RTX 3090 |
5175 / 158 |
4299 / 160 |
- |
CUDA |
| RX 7900 XTX |
- |
3532 / 191 |
3552 / 167 |
Vulkan (PP) / ROCm (TG) |
| MI300X |
- |
- |
11476 / 233 |
ROCm |
📋 Apple Silicon 性能总览(Llama 7B Q4_0)
| 芯片 |
GPU 核心 |
内存带宽 |
PP512 (t/s) |
TG128 (t/s) |
| M1 |
7-8 |
68-100 GB/s |
117-118 |
14 |
| M1 Pro |
14-16 |
200 GB/s |
266-302 |
22-36 |
| M1 Max |
24-32 |
400 GB/s |
400-599 |
38-61 |
| M1 Ultra |
48-64 |
800 GB/s |
772-1169 |
56-84 |
| M2 |
8-10 |
100 GB/s |
180-201 |
12-22 |
| M2 Pro |
16-19 |
200-300 GB/s |
288-384 |
23-39 |
| M2 Max |
30-38 |
400-600 GB/s |
537-756 |
40-66 |
| M2 Ultra |
60-76 |
800 GB/s |
1014-1402 |
62-94 |
| M3 |
10 |
100 GB/s |
187 |
12 |
| M3 Pro |
14-18 |
150-273 GB/s |
269-357 |
17-31 |
| M3 Max |
30-40 |
300-400 GB/s |
567-779 |
34-66 |
| M3 Ultra |
60-80 |
600-800 GB/s |
1073-1538 |
40-92 |
| M4 |
10 |
120 GB/s |
221 |
14 |
| M4 Pro |
16-20 |
273 GB/s |
364-464 |
17-51 |
| M4 Max |
32-54 |
410-546 GB/s |
714-923 |
24-83 |
🏆 各平台 Top 5 GPU 排行
CUDA 平台(无 FA)
| 排名 |
GPU |
PP512 (t/s) |
TG128 (t/s) |
| 1 |
RTX PRO 6000 Blackwell |
14855 |
274 |
| 2 |
RTX 5090 |
14073 |
290 |
| 3 |
H100 80GB |
9918 |
268 |
| 4 |
RTX 4090 |
11993 |
186 |
| 5 |
L40 |
8870 |
152 |
Vulkan 平台(无 FA)
| 排名 |
GPU |
PP512 (t/s) |
TG128 (t/s) |
| 1 |
RTX 5090 |
10382 |
264 |
| 2 |
RTX 4090 |
9452 |
188 |
| 3 |
RTX 5080 |
7445 |
185 |
| 4 |
RX 7900 XTX |
3532 |
191 |
| 5 |
A100 |
6390 |
161 |
ROCm 平台(无 FA)
| 排名 |
GPU |
PP512 (t/s) |
TG128 (t/s) |
| 1 |
MI300X |
11476 |
233 |
| 2 |
RX 7900 XTX |
3552 |
167 |
| 3 |
Pro W7900 |
3213 |
121 |
| 4 |
RX 7900 XT |
3098 |
116 |
| 5 |
MI210 |
2486 |
125 |
| 排名 |
芯片 |
PP512 (t/s) |
TG128 (t/s) |
| 1 |
M4 Max (54GPU) |
923 |
83 |
| 2 |
M2 Ultra (76GPU) |
1402 |
94 |
| 3 |
M3 Ultra (80GPU) |
1538 |
92 |
| 4 |
M2 Max (38GPU) |
756 |
66 |
| 5 |
M3 Max (40GPU) |
779 |
66 |
💡 购买建议
按使用场景
| 场景 |
推荐设备 |
理由 |
| 最大模型 |
DGX Spark (128GB) |
可运行 200B+ 参数模型 |
| 最佳性能 |
RTX 5090 / MI300X |
最高 t/s 性能 |
| 性价比 |
RTX 3090 (二手) |
$700 获得 158 t/s |
| 移动办公 |
M4 Max MacBook Pro |
便携 + 64GB 统一内存 |
| AMD 用户 |
RX 7900 XTX |
Vulkan/ROCm 双支持 |
| 预算有限 |
RTX 4060 Ti |
$300 入门 CUDA |
内存需求估算
| 模型大小 |
Q4_K 内存需求 |
推荐 GPU |
| 7B |
~5 GB |
RTX 3060 12GB |
| 13B |
~9 GB |
RTX 4070 12GB |
| 30B |
~20 GB |
RTX 4090 24GB |
| 70B |
~40 GB |
RTX 6000 Ada 48GB |
| 120B |
~70 GB |
DGX Spark 128GB |
| 200B+ |
~120 GB |
DGX Spark 128GB / MI300X 192GB |