llama.cpp 性能测试数据汇总 - NVIDIA DGX Spark 对比分析

数据来源:GitHub Discussion #16578 + 社区基准测试

测试模型:Llama 2 7B Q4_0(标准化)


📊 核心性能对比表(Llama 2 7B Q4_0)

无 Flash Attention

排名 设备 平台 显存/内存 PP512 (t/s) TG128 (t/s) 来源
1 RTX 5090 CUDA 32GB GDDR7 14073 290 #15013
2 RTX PRO 6000 Blackwell CUDA 96GB GDDR7 14855 274 #15013
3 H100 80GB CUDA 80GB HBM3 9918 268 #15013
4 RTX 4090 CUDA 24GB GDDR6X 11993 186 #15013
5 RTX 5080 CUDA 16GB GDDR7 8297 182 #15013
6 RTX 3090 CUDA 24GB GDDR6X 5175 158 #15013
7 DGX Spark CUDA 128GB LPDDR5x 3062 57 #16578
8 M2 Ultra (76GPU) Metal 128GB 统一 1402 41 #4167
9 M3 Ultra (80GPU) Metal 128GB 统一 1538 40 #4167
10 RX 7900 XTX Vulkan 24GB GDDR6 3532 191 #10879
11 MI300X ROCm 192GB HBM3 11476 233 #15021

有 Flash Attention

排名 设备 平台 显存/内存 PP512 (t/s) TG128 (t/s) 提升
1 RTX 5090 CUDA 32GB GDDR7 16619 300 +18%
2 RTX PRO 6000 Blackwell CUDA 96GB GDDR7 14970 281 +1%
3 H100 80GB CUDA 80GB HBM3 11263 281 +14%
4 RTX 4090 CUDA 24GB GDDR6X 14771 189 +23%
5 RTX 5080 CUDA 16GB GDDR7 9488 185 +14%
6 RTX 3090 CUDA 24GB GDDR6X 6924 172 +34%
7 DGX Spark CUDA 128GB LPDDR5x 待补充 待补充 -
8 M2 Ultra (76GPU) Metal 128GB 统一 1561 43 +11%
9 RX 7900 XTX Vulkan 24GB GDDR6 3874 170 +10%
10 MI300X ROCm 192GB HBM3 11946 219 +4%

🎯 NVIDIA DGX Spark 详细性能数据

多模型基准测试(来自官方基准文件)

模型 大小 量化 PP512 (t/s) TG128 (t/s) 显存占用
gpt-oss 20B 11.27 GiB MXFP4 MoE 4506 83 11GB
gpt-oss 120B 59.02 GiB MXFP4 MoE 2444 59 59GB
qwen3moe 30B 30.25 GiB Q8_0 2987 61 30GB
qwen2 7B 7.54 GiB Q8_0 2250 29 8GB
gemma3 4B 2.35 GiB Q4_0 5949 81 2GB
deepseek2 30B 29.65 GiB Q8_0 2364 49 30GB
qwen3vlmoe 235B 124.91 GiB Q4_K 529 13 125GB
qwen3next 80B 44.73 GiB MXFP4 MoE 1743 49 45GB
qwen35moe 35B 20.09 GiB Q4_K 2789 60 20GB
qwen35moe 122B 69.53 GiB Q4_K 1075 21 70GB
gpt-oss 20B 11.04 GiB Q4_K 4453 86 11GB
gpt-oss 120B 58.68 GiB Q4_K 2444 62 59GB

DGX Spark 上下文长度性能(Llama 2 7B Q4_0)

上下文长度 PP 速度 (t/s) TG 速度 (t/s) 总耗时 (秒)
512 1896 80 0.67
4096 4514 79 1.32
8192 4406 74 2.29
16384 4430 98 4.35
32768 4426 134 8.36
65792 4428 209 16.02
131584 4429 294 31.34
263168 4430 391 61.79

📈 关键发现

1. DGX Spark 性能定位

对比维度 结果
vs RTX 4090 DGX Spark PP512 约 25%,TG128 约 30%
vs RTX 3090 DGX Spark PP512 约 60%,TG128 约 36%
vs M2 Ultra DGX Spark PP512 约 218%,TG128 约 139%
vs MI300X DGX Spark PP512 约 27%,TG128 约 25%

2. Flash Attention 影响

设备类型 PP512 提升 TG128 提升
RTX 5090 +18% +3%
RTX 4090 +23% +2%
RTX 3090 +34% +9%
M2 Ultra +11% +5%
RX 7900 XTX +10% -11%
MI300X +4% -6%

3. 性价比分析(按 TG128 t/s per USD)

设备 价格 (USD) TG128 (t/s) 性价比
RTX 3090 (二手) ~700 158 0.226
RTX 4090 ~1600 186 0.116
RTX 5090 ~2000 290 0.145
DGX Spark ~4000 57 0.014
MI300X ~30000 233 0.008

💡 DGX Spark 优势不在于原始性能,而在于128GB 统一内存可运行超大模型(200B+)


🔍 同芯片跨后端对比

GPU CUDA (PP/TG) Vulkan (PP/TG) ROCm (PP/TG) 最佳后端
RTX 4090 11993 / 186 9452 / 188 - CUDA
RTX 3090 5175 / 158 4299 / 160 - CUDA
RX 7900 XTX - 3532 / 191 3552 / 167 Vulkan (PP) / ROCm (TG)
MI300X - - 11476 / 233 ROCm

📋 Apple Silicon 性能总览(Llama 7B Q4_0)

芯片 GPU 核心 内存带宽 PP512 (t/s) TG128 (t/s)
M1 7-8 68-100 GB/s 117-118 14
M1 Pro 14-16 200 GB/s 266-302 22-36
M1 Max 24-32 400 GB/s 400-599 38-61
M1 Ultra 48-64 800 GB/s 772-1169 56-84
M2 8-10 100 GB/s 180-201 12-22
M2 Pro 16-19 200-300 GB/s 288-384 23-39
M2 Max 30-38 400-600 GB/s 537-756 40-66
M2 Ultra 60-76 800 GB/s 1014-1402 62-94
M3 10 100 GB/s 187 12
M3 Pro 14-18 150-273 GB/s 269-357 17-31
M3 Max 30-40 300-400 GB/s 567-779 34-66
M3 Ultra 60-80 600-800 GB/s 1073-1538 40-92
M4 10 120 GB/s 221 14
M4 Pro 16-20 273 GB/s 364-464 17-51
M4 Max 32-54 410-546 GB/s 714-923 24-83

🏆 各平台 Top 5 GPU 排行

CUDA 平台(无 FA)

排名 GPU PP512 (t/s) TG128 (t/s)
1 RTX PRO 6000 Blackwell 14855 274
2 RTX 5090 14073 290
3 H100 80GB 9918 268
4 RTX 4090 11993 186
5 L40 8870 152

Vulkan 平台(无 FA)

排名 GPU PP512 (t/s) TG128 (t/s)
1 RTX 5090 10382 264
2 RTX 4090 9452 188
3 RTX 5080 7445 185
4 RX 7900 XTX 3532 191
5 A100 6390 161

ROCm 平台(无 FA)

排名 GPU PP512 (t/s) TG128 (t/s)
1 MI300X 11476 233
2 RX 7900 XTX 3552 167
3 Pro W7900 3213 121
4 RX 7900 XT 3098 116
5 MI210 2486 125

Apple Metal 平台

排名 芯片 PP512 (t/s) TG128 (t/s)
1 M4 Max (54GPU) 923 83
2 M2 Ultra (76GPU) 1402 94
3 M3 Ultra (80GPU) 1538 92
4 M2 Max (38GPU) 756 66
5 M3 Max (40GPU) 779 66

💡 购买建议

按使用场景

场景 推荐设备 理由
最大模型 DGX Spark (128GB) 可运行 200B+ 参数模型
最佳性能 RTX 5090 / MI300X 最高 t/s 性能
性价比 RTX 3090 (二手) $700 获得 158 t/s
移动办公 M4 Max MacBook Pro 便携 + 64GB 统一内存
AMD 用户 RX 7900 XTX Vulkan/ROCm 双支持
预算有限 RTX 4060 Ti $300 入门 CUDA

内存需求估算

模型大小 Q4_K 内存需求 推荐 GPU
7B ~5 GB RTX 3060 12GB
13B ~9 GB RTX 4070 12GB
30B ~20 GB RTX 4090 24GB
70B ~40 GB RTX 6000 Ada 48GB
120B ~70 GB DGX Spark 128GB
200B+ ~120 GB DGX Spark 128GB / MI300X 192GB

相关推荐
人工智能AI技术2 分钟前
梯度下降基础:AI 模型自我优化的核心方法
人工智能
kishu_iOS&AI2 分钟前
深度学习 —— 梯度下降法的优化方法
人工智能·pytorch·python·深度学习
MobotStone4 分钟前
拼多多为什么弱化购物车?
人工智能
Rabbit_QL4 分钟前
【权重】离线环境怎么用预训练权重
人工智能·pytorch
VBsemi-专注于MOSFET研发定制8 分钟前
AI水稻插秧机器人功率器件选型方案——高效、可靠与精准驱动系统设计指南
人工智能·机器人
mmWave&THz13 分钟前
技术解析:Bolicom-mmWave高速毫米波通信设备赋能港口机械智能化升级
网络·人工智能·系统架构·信息与通信·智能硬件
观北海15 分钟前
视觉-语言-动作模型(VLA)深度解析:当 AI 学会“看、读、动”
人工智能·计算机视觉
AiTop10019 分钟前
跨数据中心的创新:Moonshot AI与清华大学提出PrfaaS架构
人工智能·ai·架构
深藏功yu名20 分钟前
大模型推理加速实战技术
人工智能·python·ai·pycharm
GISer_Jing27 分钟前
AI时代前端开发者成长计划
前端·人工智能