数据来源:GitHub Discussion #16578 + 社区基准测试
测试模型:Llama 2 7B Q4_0(标准化)
📊 核心性能对比表(Llama 2 7B Q4_0)
无 Flash Attention
| 排名 | 设备 | 平台 | 显存/内存 | PP512 (t/s) | TG128 (t/s) | 来源 |
|---|---|---|---|---|---|---|
| 1 | RTX 5090 | CUDA | 32GB GDDR7 | 14073 | 290 | #15013 |
| 2 | RTX PRO 6000 Blackwell | CUDA | 96GB GDDR7 | 14855 | 274 | #15013 |
| 3 | H100 80GB | CUDA | 80GB HBM3 | 9918 | 268 | #15013 |
| 4 | RTX 4090 | CUDA | 24GB GDDR6X | 11993 | 186 | #15013 |
| 5 | RTX 5080 | CUDA | 16GB GDDR7 | 8297 | 182 | #15013 |
| 6 | RTX 3090 | CUDA | 24GB GDDR6X | 5175 | 158 | #15013 |
| 7 | DGX Spark | CUDA | 128GB LPDDR5x | 3062 | 57 | #16578 |
| 8 | M2 Ultra (76GPU) | Metal | 128GB 统一 | 1402 | 41 | #4167 |
| 9 | M3 Ultra (80GPU) | Metal | 128GB 统一 | 1538 | 40 | #4167 |
| 10 | RX 7900 XTX | Vulkan | 24GB GDDR6 | 3532 | 191 | #10879 |
| 11 | MI300X | ROCm | 192GB HBM3 | 11476 | 233 | #15021 |
有 Flash Attention
| 排名 | 设备 | 平台 | 显存/内存 | PP512 (t/s) | TG128 (t/s) | 提升 |
|---|---|---|---|---|---|---|
| 1 | RTX 5090 | CUDA | 32GB GDDR7 | 16619 | 300 | +18% |
| 2 | RTX PRO 6000 Blackwell | CUDA | 96GB GDDR7 | 14970 | 281 | +1% |
| 3 | H100 80GB | CUDA | 80GB HBM3 | 11263 | 281 | +14% |
| 4 | RTX 4090 | CUDA | 24GB GDDR6X | 14771 | 189 | +23% |
| 5 | RTX 5080 | CUDA | 16GB GDDR7 | 9488 | 185 | +14% |
| 6 | RTX 3090 | CUDA | 24GB GDDR6X | 6924 | 172 | +34% |
| 7 | DGX Spark | CUDA | 128GB LPDDR5x | 待补充 | 待补充 | - |
| 8 | M2 Ultra (76GPU) | Metal | 128GB 统一 | 1561 | 43 | +11% |
| 9 | RX 7900 XTX | Vulkan | 24GB GDDR6 | 3874 | 170 | +10% |
| 10 | MI300X | ROCm | 192GB HBM3 | 11946 | 219 | +4% |
🎯 NVIDIA DGX Spark 详细性能数据
多模型基准测试(来自官方基准文件)
| 模型 | 大小 | 量化 | PP512 (t/s) | TG128 (t/s) | 显存占用 |
|---|---|---|---|---|---|
| gpt-oss 20B | 11.27 GiB | MXFP4 MoE | 4506 | 83 | 11GB |
| gpt-oss 120B | 59.02 GiB | MXFP4 MoE | 2444 | 59 | 59GB |
| qwen3moe 30B | 30.25 GiB | Q8_0 | 2987 | 61 | 30GB |
| qwen2 7B | 7.54 GiB | Q8_0 | 2250 | 29 | 8GB |
| gemma3 4B | 2.35 GiB | Q4_0 | 5949 | 81 | 2GB |
| deepseek2 30B | 29.65 GiB | Q8_0 | 2364 | 49 | 30GB |
| qwen3vlmoe 235B | 124.91 GiB | Q4_K | 529 | 13 | 125GB |
| qwen3next 80B | 44.73 GiB | MXFP4 MoE | 1743 | 49 | 45GB |
| qwen35moe 35B | 20.09 GiB | Q4_K | 2789 | 60 | 20GB |
| qwen35moe 122B | 69.53 GiB | Q4_K | 1075 | 21 | 70GB |
| gpt-oss 20B | 11.04 GiB | Q4_K | 4453 | 86 | 11GB |
| gpt-oss 120B | 58.68 GiB | Q4_K | 2444 | 62 | 59GB |
DGX Spark 上下文长度性能(Llama 2 7B Q4_0)
| 上下文长度 | PP 速度 (t/s) | TG 速度 (t/s) | 总耗时 (秒) |
|---|---|---|---|
| 512 | 1896 | 80 | 0.67 |
| 4096 | 4514 | 79 | 1.32 |
| 8192 | 4406 | 74 | 2.29 |
| 16384 | 4430 | 98 | 4.35 |
| 32768 | 4426 | 134 | 8.36 |
| 65792 | 4428 | 209 | 16.02 |
| 131584 | 4429 | 294 | 31.34 |
| 263168 | 4430 | 391 | 61.79 |
📈 关键发现
1. DGX Spark 性能定位
| 对比维度 | 结果 |
|---|---|
| vs RTX 4090 | DGX Spark PP512 约 25%,TG128 约 30% |
| vs RTX 3090 | DGX Spark PP512 约 60%,TG128 约 36% |
| vs M2 Ultra | DGX Spark PP512 约 218%,TG128 约 139% |
| vs MI300X | DGX Spark PP512 约 27%,TG128 约 25% |
2. Flash Attention 影响
| 设备类型 | PP512 提升 | TG128 提升 |
|---|---|---|
| RTX 5090 | +18% | +3% |
| RTX 4090 | +23% | +2% |
| RTX 3090 | +34% | +9% |
| M2 Ultra | +11% | +5% |
| RX 7900 XTX | +10% | -11% |
| MI300X | +4% | -6% |
3. 性价比分析(按 TG128 t/s per USD)
| 设备 | 价格 (USD) | TG128 (t/s) | 性价比 |
|---|---|---|---|
| RTX 3090 (二手) | ~700 | 158 | 0.226 |
| RTX 4090 | ~1600 | 186 | 0.116 |
| RTX 5090 | ~2000 | 290 | 0.145 |
| DGX Spark | ~4000 | 57 | 0.014 |
| MI300X | ~30000 | 233 | 0.008 |
💡 DGX Spark 优势不在于原始性能,而在于128GB 统一内存可运行超大模型(200B+)
🔍 同芯片跨后端对比
| GPU | CUDA (PP/TG) | Vulkan (PP/TG) | ROCm (PP/TG) | 最佳后端 |
|---|---|---|---|---|
| RTX 4090 | 11993 / 186 | 9452 / 188 | - | CUDA |
| RTX 3090 | 5175 / 158 | 4299 / 160 | - | CUDA |
| RX 7900 XTX | - | 3532 / 191 | 3552 / 167 | Vulkan (PP) / ROCm (TG) |
| MI300X | - | - | 11476 / 233 | ROCm |
📋 Apple Silicon 性能总览(Llama 7B Q4_0)
| 芯片 | GPU 核心 | 内存带宽 | PP512 (t/s) | TG128 (t/s) |
|---|---|---|---|---|
| M1 | 7-8 | 68-100 GB/s | 117-118 | 14 |
| M1 Pro | 14-16 | 200 GB/s | 266-302 | 22-36 |
| M1 Max | 24-32 | 400 GB/s | 400-599 | 38-61 |
| M1 Ultra | 48-64 | 800 GB/s | 772-1169 | 56-84 |
| M2 | 8-10 | 100 GB/s | 180-201 | 12-22 |
| M2 Pro | 16-19 | 200-300 GB/s | 288-384 | 23-39 |
| M2 Max | 30-38 | 400-600 GB/s | 537-756 | 40-66 |
| M2 Ultra | 60-76 | 800 GB/s | 1014-1402 | 62-94 |
| M3 | 10 | 100 GB/s | 187 | 12 |
| M3 Pro | 14-18 | 150-273 GB/s | 269-357 | 17-31 |
| M3 Max | 30-40 | 300-400 GB/s | 567-779 | 34-66 |
| M3 Ultra | 60-80 | 600-800 GB/s | 1073-1538 | 40-92 |
| M4 | 10 | 120 GB/s | 221 | 14 |
| M4 Pro | 16-20 | 273 GB/s | 364-464 | 17-51 |
| M4 Max | 32-54 | 410-546 GB/s | 714-923 | 24-83 |
🏆 各平台 Top 5 GPU 排行
CUDA 平台(无 FA)
| 排名 | GPU | PP512 (t/s) | TG128 (t/s) |
|---|---|---|---|
| 1 | RTX PRO 6000 Blackwell | 14855 | 274 |
| 2 | RTX 5090 | 14073 | 290 |
| 3 | H100 80GB | 9918 | 268 |
| 4 | RTX 4090 | 11993 | 186 |
| 5 | L40 | 8870 | 152 |
Vulkan 平台(无 FA)
| 排名 | GPU | PP512 (t/s) | TG128 (t/s) |
|---|---|---|---|
| 1 | RTX 5090 | 10382 | 264 |
| 2 | RTX 4090 | 9452 | 188 |
| 3 | RTX 5080 | 7445 | 185 |
| 4 | RX 7900 XTX | 3532 | 191 |
| 5 | A100 | 6390 | 161 |
ROCm 平台(无 FA)
| 排名 | GPU | PP512 (t/s) | TG128 (t/s) |
|---|---|---|---|
| 1 | MI300X | 11476 | 233 |
| 2 | RX 7900 XTX | 3552 | 167 |
| 3 | Pro W7900 | 3213 | 121 |
| 4 | RX 7900 XT | 3098 | 116 |
| 5 | MI210 | 2486 | 125 |
Apple Metal 平台
| 排名 | 芯片 | PP512 (t/s) | TG128 (t/s) |
|---|---|---|---|
| 1 | M4 Max (54GPU) | 923 | 83 |
| 2 | M2 Ultra (76GPU) | 1402 | 94 |
| 3 | M3 Ultra (80GPU) | 1538 | 92 |
| 4 | M2 Max (38GPU) | 756 | 66 |
| 5 | M3 Max (40GPU) | 779 | 66 |
💡 购买建议
按使用场景
| 场景 | 推荐设备 | 理由 |
|---|---|---|
| 最大模型 | DGX Spark (128GB) | 可运行 200B+ 参数模型 |
| 最佳性能 | RTX 5090 / MI300X | 最高 t/s 性能 |
| 性价比 | RTX 3090 (二手) | $700 获得 158 t/s |
| 移动办公 | M4 Max MacBook Pro | 便携 + 64GB 统一内存 |
| AMD 用户 | RX 7900 XTX | Vulkan/ROCm 双支持 |
| 预算有限 | RTX 4060 Ti | $300 入门 CUDA |
内存需求估算
| 模型大小 | Q4_K 内存需求 | 推荐 GPU |
|---|---|---|
| 7B | ~5 GB | RTX 3060 12GB |
| 13B | ~9 GB | RTX 4070 12GB |
| 30B | ~20 GB | RTX 4090 24GB |
| 70B | ~40 GB | RTX 6000 Ada 48GB |
| 120B | ~70 GB | DGX Spark 128GB |
| 200B+ | ~120 GB | DGX Spark 128GB / MI300X 192GB |