llama.cpp 性能测试数据汇总 - NVIDIA DGX Spark 对比分析

数据来源:GitHub Discussion #16578 + 社区基准测试

测试模型:Llama 2 7B Q4_0(标准化)


📊 核心性能对比表(Llama 2 7B Q4_0)

无 Flash Attention

排名 设备 平台 显存/内存 PP512 (t/s) TG128 (t/s) 来源
1 RTX 5090 CUDA 32GB GDDR7 14073 290 #15013
2 RTX PRO 6000 Blackwell CUDA 96GB GDDR7 14855 274 #15013
3 H100 80GB CUDA 80GB HBM3 9918 268 #15013
4 RTX 4090 CUDA 24GB GDDR6X 11993 186 #15013
5 RTX 5080 CUDA 16GB GDDR7 8297 182 #15013
6 RTX 3090 CUDA 24GB GDDR6X 5175 158 #15013
7 DGX Spark CUDA 128GB LPDDR5x 3062 57 #16578
8 M2 Ultra (76GPU) Metal 128GB 统一 1402 41 #4167
9 M3 Ultra (80GPU) Metal 128GB 统一 1538 40 #4167
10 RX 7900 XTX Vulkan 24GB GDDR6 3532 191 #10879
11 MI300X ROCm 192GB HBM3 11476 233 #15021

有 Flash Attention

排名 设备 平台 显存/内存 PP512 (t/s) TG128 (t/s) 提升
1 RTX 5090 CUDA 32GB GDDR7 16619 300 +18%
2 RTX PRO 6000 Blackwell CUDA 96GB GDDR7 14970 281 +1%
3 H100 80GB CUDA 80GB HBM3 11263 281 +14%
4 RTX 4090 CUDA 24GB GDDR6X 14771 189 +23%
5 RTX 5080 CUDA 16GB GDDR7 9488 185 +14%
6 RTX 3090 CUDA 24GB GDDR6X 6924 172 +34%
7 DGX Spark CUDA 128GB LPDDR5x 待补充 待补充 -
8 M2 Ultra (76GPU) Metal 128GB 统一 1561 43 +11%
9 RX 7900 XTX Vulkan 24GB GDDR6 3874 170 +10%
10 MI300X ROCm 192GB HBM3 11946 219 +4%

🎯 NVIDIA DGX Spark 详细性能数据

多模型基准测试(来自官方基准文件)

模型 大小 量化 PP512 (t/s) TG128 (t/s) 显存占用
gpt-oss 20B 11.27 GiB MXFP4 MoE 4506 83 11GB
gpt-oss 120B 59.02 GiB MXFP4 MoE 2444 59 59GB
qwen3moe 30B 30.25 GiB Q8_0 2987 61 30GB
qwen2 7B 7.54 GiB Q8_0 2250 29 8GB
gemma3 4B 2.35 GiB Q4_0 5949 81 2GB
deepseek2 30B 29.65 GiB Q8_0 2364 49 30GB
qwen3vlmoe 235B 124.91 GiB Q4_K 529 13 125GB
qwen3next 80B 44.73 GiB MXFP4 MoE 1743 49 45GB
qwen35moe 35B 20.09 GiB Q4_K 2789 60 20GB
qwen35moe 122B 69.53 GiB Q4_K 1075 21 70GB
gpt-oss 20B 11.04 GiB Q4_K 4453 86 11GB
gpt-oss 120B 58.68 GiB Q4_K 2444 62 59GB

DGX Spark 上下文长度性能(Llama 2 7B Q4_0)

上下文长度 PP 速度 (t/s) TG 速度 (t/s) 总耗时 (秒)
512 1896 80 0.67
4096 4514 79 1.32
8192 4406 74 2.29
16384 4430 98 4.35
32768 4426 134 8.36
65792 4428 209 16.02
131584 4429 294 31.34
263168 4430 391 61.79

📈 关键发现

1. DGX Spark 性能定位

对比维度 结果
vs RTX 4090 DGX Spark PP512 约 25%,TG128 约 30%
vs RTX 3090 DGX Spark PP512 约 60%,TG128 约 36%
vs M2 Ultra DGX Spark PP512 约 218%,TG128 约 139%
vs MI300X DGX Spark PP512 约 27%,TG128 约 25%

2. Flash Attention 影响

设备类型 PP512 提升 TG128 提升
RTX 5090 +18% +3%
RTX 4090 +23% +2%
RTX 3090 +34% +9%
M2 Ultra +11% +5%
RX 7900 XTX +10% -11%
MI300X +4% -6%

3. 性价比分析(按 TG128 t/s per USD)

设备 价格 (USD) TG128 (t/s) 性价比
RTX 3090 (二手) ~700 158 0.226
RTX 4090 ~1600 186 0.116
RTX 5090 ~2000 290 0.145
DGX Spark ~4000 57 0.014
MI300X ~30000 233 0.008

💡 DGX Spark 优势不在于原始性能,而在于128GB 统一内存可运行超大模型(200B+)


🔍 同芯片跨后端对比

GPU CUDA (PP/TG) Vulkan (PP/TG) ROCm (PP/TG) 最佳后端
RTX 4090 11993 / 186 9452 / 188 - CUDA
RTX 3090 5175 / 158 4299 / 160 - CUDA
RX 7900 XTX - 3532 / 191 3552 / 167 Vulkan (PP) / ROCm (TG)
MI300X - - 11476 / 233 ROCm

📋 Apple Silicon 性能总览(Llama 7B Q4_0)

芯片 GPU 核心 内存带宽 PP512 (t/s) TG128 (t/s)
M1 7-8 68-100 GB/s 117-118 14
M1 Pro 14-16 200 GB/s 266-302 22-36
M1 Max 24-32 400 GB/s 400-599 38-61
M1 Ultra 48-64 800 GB/s 772-1169 56-84
M2 8-10 100 GB/s 180-201 12-22
M2 Pro 16-19 200-300 GB/s 288-384 23-39
M2 Max 30-38 400-600 GB/s 537-756 40-66
M2 Ultra 60-76 800 GB/s 1014-1402 62-94
M3 10 100 GB/s 187 12
M3 Pro 14-18 150-273 GB/s 269-357 17-31
M3 Max 30-40 300-400 GB/s 567-779 34-66
M3 Ultra 60-80 600-800 GB/s 1073-1538 40-92
M4 10 120 GB/s 221 14
M4 Pro 16-20 273 GB/s 364-464 17-51
M4 Max 32-54 410-546 GB/s 714-923 24-83

🏆 各平台 Top 5 GPU 排行

CUDA 平台(无 FA)

排名 GPU PP512 (t/s) TG128 (t/s)
1 RTX PRO 6000 Blackwell 14855 274
2 RTX 5090 14073 290
3 H100 80GB 9918 268
4 RTX 4090 11993 186
5 L40 8870 152

Vulkan 平台(无 FA)

排名 GPU PP512 (t/s) TG128 (t/s)
1 RTX 5090 10382 264
2 RTX 4090 9452 188
3 RTX 5080 7445 185
4 RX 7900 XTX 3532 191
5 A100 6390 161

ROCm 平台(无 FA)

排名 GPU PP512 (t/s) TG128 (t/s)
1 MI300X 11476 233
2 RX 7900 XTX 3552 167
3 Pro W7900 3213 121
4 RX 7900 XT 3098 116
5 MI210 2486 125

Apple Metal 平台

排名 芯片 PP512 (t/s) TG128 (t/s)
1 M4 Max (54GPU) 923 83
2 M2 Ultra (76GPU) 1402 94
3 M3 Ultra (80GPU) 1538 92
4 M2 Max (38GPU) 756 66
5 M3 Max (40GPU) 779 66

💡 购买建议

按使用场景

场景 推荐设备 理由
最大模型 DGX Spark (128GB) 可运行 200B+ 参数模型
最佳性能 RTX 5090 / MI300X 最高 t/s 性能
性价比 RTX 3090 (二手) $700 获得 158 t/s
移动办公 M4 Max MacBook Pro 便携 + 64GB 统一内存
AMD 用户 RX 7900 XTX Vulkan/ROCm 双支持
预算有限 RTX 4060 Ti $300 入门 CUDA

内存需求估算

模型大小 Q4_K 内存需求 推荐 GPU
7B ~5 GB RTX 3060 12GB
13B ~9 GB RTX 4070 12GB
30B ~20 GB RTX 4090 24GB
70B ~40 GB RTX 6000 Ada 48GB
120B ~70 GB DGX Spark 128GB
200B+ ~120 GB DGX Spark 128GB / MI300X 192GB

相关推荐
ai产品老杨2 小时前
异构计算与边缘协同:基于 ARM/X86 的企业级 AI 视频中台架构设计
arm开发·人工智能·音视频
武汉唯众智创2 小时前
Rust系统安全实训入门:唯众网络安全实训室搭建与边缘节点并发优化实操指南
人工智能·rust·网络安全实训室建设·rust系统安全实训
昨夜见军贴06162 小时前
AI报告文档审核赋能数据不出域:IACheck重构机械制造行业本地化质量管控体系
大数据·人工智能·重构
samoyan2 小时前
OpenClaw 记忆系统设计学习笔记
人工智能
chatexcel2 小时前
AI生成PPT工具哪个好?2026主流AIPPT工具实测对比
人工智能·powerpoint
AI服务老曹2 小时前
异构计算新范式:基于 X86/ARM 的 AI 视频管理平台架构深度解析
arm开发·人工智能·架构
~央千澈~2 小时前
《2026鸿蒙NEXT纯血开发与AI辅助》第二章:DevEco Studio 的基本使用以及arkui的详细介绍-卓伊凡
人工智能·harmony·harmony os
芯盾时代2 小时前
金融行业AI治理与安全解决方案
人工智能·安全·金融
落羽的落羽2 小时前
【Linux系统】入门线程:线程介绍与线程控制
linux·服务器·c++·人工智能·stm32·单片机·机器学习