llama.cpp 性能测试数据汇总 - NVIDIA DGX Spark 对比分析

d1z8882026-04-02 8:31

数据来源：GitHub Discussion #16578 + 社区基准测试

测试模型：Llama 2 7B Q4_0（标准化）

📊 核心性能对比表（Llama 2 7B Q4_0）

无 Flash Attention

排名	设备	平台	显存/内存	PP512 (t/s)	TG128 (t/s)	来源
1	RTX 5090	CUDA	32GB GDDR7	14073	290	#15013
2	RTX PRO 6000 Blackwell	CUDA	96GB GDDR7	14855	274	#15013
3	H100 80GB	CUDA	80GB HBM3	9918	268	#15013
4	RTX 4090	CUDA	24GB GDDR6X	11993	186	#15013
5	RTX 5080	CUDA	16GB GDDR7	8297	182	#15013
6	RTX 3090	CUDA	24GB GDDR6X	5175	158	#15013
7	DGX Spark	CUDA	128GB LPDDR5x	3062	57	#16578
8	M2 Ultra (76GPU)	Metal	128GB 统一	1402	41	#4167
9	M3 Ultra (80GPU)	Metal	128GB 统一	1538	40	#4167
10	RX 7900 XTX	Vulkan	24GB GDDR6	3532	191	#10879
11	MI300X	ROCm	192GB HBM3	11476	233	#15021

有 Flash Attention

排名	设备	平台	显存/内存	PP512 (t/s)	TG128 (t/s)	提升
1	RTX 5090	CUDA	32GB GDDR7	16619	300	+18%
2	RTX PRO 6000 Blackwell	CUDA	96GB GDDR7	14970	281	+1%
3	H100 80GB	CUDA	80GB HBM3	11263	281	+14%
4	RTX 4090	CUDA	24GB GDDR6X	14771	189	+23%
5	RTX 5080	CUDA	16GB GDDR7	9488	185	+14%
6	RTX 3090	CUDA	24GB GDDR6X	6924	172	+34%
7	DGX Spark	CUDA	128GB LPDDR5x	待补充	待补充	-
8	M2 Ultra (76GPU)	Metal	128GB 统一	1561	43	+11%
9	RX 7900 XTX	Vulkan	24GB GDDR6	3874	170	+10%
10	MI300X	ROCm	192GB HBM3	11946	219	+4%

🎯 NVIDIA DGX Spark 详细性能数据

多模型基准测试（来自官方基准文件）

模型	大小	量化	PP512 (t/s)	TG128 (t/s)	显存占用
gpt-oss 20B	11.27 GiB	MXFP4 MoE	4506	83	11GB
gpt-oss 120B	59.02 GiB	MXFP4 MoE	2444	59	59GB
qwen3moe 30B	30.25 GiB	Q8_0	2987	61	30GB
qwen2 7B	7.54 GiB	Q8_0	2250	29	8GB
gemma3 4B	2.35 GiB	Q4_0	5949	81	2GB
deepseek2 30B	29.65 GiB	Q8_0	2364	49	30GB
qwen3vlmoe 235B	124.91 GiB	Q4_K	529	13	125GB
qwen3next 80B	44.73 GiB	MXFP4 MoE	1743	49	45GB
qwen35moe 35B	20.09 GiB	Q4_K	2789	60	20GB
qwen35moe 122B	69.53 GiB	Q4_K	1075	21	70GB
gpt-oss 20B	11.04 GiB	Q4_K	4453	86	11GB
gpt-oss 120B	58.68 GiB	Q4_K	2444	62	59GB

DGX Spark 上下文长度性能（Llama 2 7B Q4_0）

上下文长度	PP 速度 (t/s)	TG 速度 (t/s)	总耗时 (秒)
512	1896	80	0.67
4096	4514	79	1.32
8192	4406	74	2.29
16384	4430	98	4.35
32768	4426	134	8.36
65792	4428	209	16.02
131584	4429	294	31.34
263168	4430	391	61.79

📈 关键发现

1. DGX Spark 性能定位

对比维度	结果
vs RTX 4090	DGX Spark PP512 约 25%，TG128 约 30%
vs RTX 3090	DGX Spark PP512 约 60%，TG128 约 36%
vs M2 Ultra	DGX Spark PP512 约 218%，TG128 约 139%
vs MI300X	DGX Spark PP512 约 27%，TG128 约 25%

2. Flash Attention 影响

设备类型	PP512 提升	TG128 提升
RTX 5090	+18%	+3%
RTX 4090	+23%	+2%
RTX 3090	+34%	+9%
M2 Ultra	+11%	+5%
RX 7900 XTX	+10%	-11%
MI300X	+4%	-6%

3. 性价比分析（按 TG128 t/s per USD）

设备	价格 (USD)	TG128 (t/s)	性价比
RTX 3090 (二手)	~700	158	0.226
RTX 4090	~1600	186	0.116
RTX 5090	~2000	290	0.145
DGX Spark	~4000	57	0.014
MI300X	~30000	233	0.008

💡 DGX Spark 优势不在于原始性能，而在于128GB 统一内存可运行超大模型（200B+）

🔍 同芯片跨后端对比

GPU	CUDA (PP/TG)	Vulkan (PP/TG)	ROCm (PP/TG)	最佳后端
RTX 4090	11993 / 186	9452 / 188	-	CUDA
RTX 3090	5175 / 158	4299 / 160	-	CUDA
RX 7900 XTX	-	3532 / 191	3552 / 167	Vulkan (PP) / ROCm (TG)
MI300X	-	-	11476 / 233	ROCm

📋 Apple Silicon 性能总览（Llama 7B Q4_0）

芯片	GPU 核心	内存带宽	PP512 (t/s)	TG128 (t/s)
M1	7-8	68-100 GB/s	117-118	14
M1 Pro	14-16	200 GB/s	266-302	22-36
M1 Max	24-32	400 GB/s	400-599	38-61
M1 Ultra	48-64	800 GB/s	772-1169	56-84
M2	8-10	100 GB/s	180-201	12-22
M2 Pro	16-19	200-300 GB/s	288-384	23-39
M2 Max	30-38	400-600 GB/s	537-756	40-66
M2 Ultra	60-76	800 GB/s	1014-1402	62-94
M3	10	100 GB/s	187	12
M3 Pro	14-18	150-273 GB/s	269-357	17-31
M3 Max	30-40	300-400 GB/s	567-779	34-66
M3 Ultra	60-80	600-800 GB/s	1073-1538	40-92
M4	10	120 GB/s	221	14
M4 Pro	16-20	273 GB/s	364-464	17-51
M4 Max	32-54	410-546 GB/s	714-923	24-83

🏆 各平台 Top 5 GPU 排行

CUDA 平台（无 FA）

排名	GPU	PP512 (t/s)	TG128 (t/s)
1	RTX PRO 6000 Blackwell	14855	274
2	RTX 5090	14073	290
3	H100 80GB	9918	268
4	RTX 4090	11993	186
5	L40	8870	152

Vulkan 平台（无 FA）

排名	GPU	PP512 (t/s)	TG128 (t/s)
1	RTX 5090	10382	264
2	RTX 4090	9452	188
3	RTX 5080	7445	185
4	RX 7900 XTX	3532	191
5	A100	6390	161

ROCm 平台（无 FA）

排名	GPU	PP512 (t/s)	TG128 (t/s)
1	MI300X	11476	233
2	RX 7900 XTX	3552	167
3	Pro W7900	3213	121
4	RX 7900 XT	3098	116
5	MI210	2486	125

Apple Metal 平台

排名	芯片	PP512 (t/s)	TG128 (t/s)
1	M4 Max (54GPU)	923	83
2	M2 Ultra (76GPU)	1402	94
3	M3 Ultra (80GPU)	1538	92
4	M2 Max (38GPU)	756	66
5	M3 Max (40GPU)	779	66

💡 购买建议

按使用场景

场景	推荐设备	理由
最大模型	DGX Spark (128GB)	可运行 200B+ 参数模型
最佳性能	RTX 5090 / MI300X	最高 t/s 性能
性价比	RTX 3090 (二手)	$700 获得 158 t/s
移动办公	M4 Max MacBook Pro	便携 + 64GB 统一内存
AMD 用户	RX 7900 XTX	Vulkan/ROCm 双支持
预算有限	RTX 4060 Ti	$300 入门 CUDA

内存需求估算

模型大小	Q4_K 内存需求	推荐 GPU
7B	~5 GB	RTX 3060 12GB
13B	~9 GB	RTX 4070 12GB
30B	~20 GB	RTX 4090 24GB
70B	~40 GB	RTX 6000 Ada 48GB
120B	~70 GB	DGX Spark 128GB
200B+	~120 GB	DGX Spark 128GB / MI300X 192GB

上一篇：每日一题力扣 2751.机器人碰撞映射模拟栈 C++ 题解

下一篇：Apache Spark 第 13 章：Real-Time Mode 实时计算

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03AI科技热点日报 | 2026年07月01日 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05如何新建文件夹？电脑新建文件夹的4种方法 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）082026年AI技术突破与产业落地全景：从GPT-5到多模态智能体的新纪元 092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？10全面体验 Grok API 中转站（2025 · Grok 4 系列最新版）