主流大模型硬件适配对照表（消费级 / 服务器通用）完整教程

第一章核心认知：大模型硬件选型的底层逻辑

1.1 三个铁律

铁律一：显存是第一生产力。 显存不够，算力再强也加载不了模型。宁选大显存的低端卡（RTX 4060 Ti 16GB），不选小显存的高端卡（RTX 4070 Super 12GB）------后者根本加载不进去。

铁律二：推理看带宽，训练看算力。 推理是「访存密集」任务，每生成一个 token 都要读取全部模型权重，显存带宽直接决定生成速度上限。训练是「计算密集」任务，TFLOPS 是决定性因素。

铁律三：量化是消费级硬件的救星。 INT4 量化将显存需求压缩到 FP16 的 1/4，代价是 3-5% 的质量损失。对大多数场景，这个代价完全可以接受。

1.2 2026 年显存与模型速查（一句话版）

显存	能干什么
4GB	Phi-4-mini、轻量学习体验
8GB	7B-9B 模型 INT4，日常问答、写作、简单编程
16GB	14B-32B 模型 INT4，企业内用、文档分析、专业编程
24GB	32B INT4 舒适，接近 ChatGPT-4 级别能力，消费级甜点
48GB+	70B INT4 及以上，专业应用、复杂推理
80GB+	70B 全精度，千亿参数模型，生产环境高并发

第二章显存计算核心公式（必须掌握）

2.1 推理显存估算

基础公式

复制代码

显存占用 ≈ 模型参数量(B) × 精度字节数 + KV_Cache + 框架开销

精度字节数对照：

精度	每参数字节数	相对 FP16
FP32	4 字节	2x
FP16 / BF16	2 字节	1x（基准）
INT8	1 字节	0.5x
INT4	0.5 字节	0.25x
FP8	1 字节	0.5x

简化版（快速心算）

复制代码

所需显存(GB) ≈ 模型参数量(B) × 量化精度/8 × 1.2

其中 1.2 是 KV Cache 和系统开销的预留系数。

实战速算表

模型规模	FP16	INT8	INT4	FP16（含开销）	INT8（含开销）	INT4（含开销）
0.5B	1GB	0.5GB	0.25GB	1.2GB	0.6GB	0.3GB
1.5B	3GB	1.5GB	0.75GB	3.6GB	1.8GB	0.9GB
3B	6GB	3GB	1.5GB	7.2GB	3.6GB	1.8GB
4B	8GB	4GB	2GB	9.6GB	4.8GB	2.4GB
7B	14GB	7GB	3.5GB	≈17GB	≈10GB	≈5GB
8B	16GB	8GB	4GB	≈19GB	≈12GB	≈6GB
9B	18GB	9GB	4.5GB	≈22GB	≈13GB	≈7GB
13B	26GB	13GB	6.5GB	≈31GB	≈17GB	≈9GB
14B	28GB	14GB	7GB	≈34GB	≈19GB	≈10GB
27B	54GB	27GB	13.5GB	≈65GB	≈35GB	≈20GB
32B	64GB	32GB	16GB	≈77GB	≈42GB	≈22GB
34B	68GB	34GB	17GB	≈82GB	≈44GB	≈24GB
70B	140GB	70GB	35GB	≈168GB	≈88GB	≈45GB
72B	144GB	72GB	36GB	≈173GB	≈90GB	≈46GB
122B	244GB	122GB	61GB	≈293GB	≈150GB	≈78GB
235B (MoE)	470GB	235GB	117.5GB	≈565GB	≈285GB	≈145GB
400B (MoE)	800GB	400GB	200GB	≈960GB	≈490GB	≈250GB
671B (MoE)	1342GB	671GB	335.5GB	≈1610GB	≈820GB	≈420GB

MoE 注意：MoE（混合专家）模型的「激活参数」远小于「总参数」。例如 Qwen3-235B-A22B 虽然总参数 235B，但每次推理只激活 22B，实际显存需求约为 235B 权重的存储 + 22B 激活的 KV Cache。

2.2 训练显存估算

训练比推理的显存需求高 3-4 倍，因为还需要存储优化器状态、梯度和中间激活值。

复制代码

训练显存 ≈ 推理显存 × 3~4（全参数微调）
训练显存 ≈ 推理显存 × 1.5~2（LoRA 微调）

各模型训练显存速查（FP16 全参微调）：

模型规模	推理显存	全参微调显存	LoRA 微调显存	推荐 GPU 组合
7B	≈17GB	≈50-70GB	≈25-35GB	1×A100 80GB / 2×RTX 4090
13B	≈31GB	≈90-120GB	≈45-60GB	2×A100 80GB / 4×RTX 4090
32B	≈77GB	≈230-300GB	≈100-130GB	4×A100 80GB / 4×H100
70B	≈168GB	≈500-670GB	≈220-280GB	8×A100 80GB / 8×H100
235B MoE	≈565GB	≈1.5-2TB	≈600-800GB	16×H100 80GB / 8×H200

2.3 KV Cache 精确估算

复制代码

KV_Cache(GB) ≈ 2 × 层数 × 隐藏维度 × 精度字节数 × 上下文长度 / (1024³)

或简化：KV_Cache ≈ 模型参数 × 0.25 × (上下文长度 / 2048)

模型	层数	隐藏维度	4K 上下文 KV Cache	16K 上下文 KV Cache	32K 上下文 KV Cache
Qwen3-8B	32	4096	≈0.5GB	≈1.8GB	≈3.5GB
Qwen3-32B	64	5120	≈1.5GB	≈6.0GB	≈12GB
Llama 3.3 70B	80	8192	≈3.8GB	≈15GB	≈30GB
DeepSeek-V3-lite	---	---	≈1.2GB	≈5.0GB	≈10GB

⚠️ 长上下文场景下，KV Cache 可能比模型权重本身占用更大的显存。

第三章消费级 GPU 全景对比（NVIDIA RTX 系列）

3.1 核心参数一览（2026 年 6 月市场）

型号	显存	带宽	显存类型	FP16 算力	功耗	新卡参考价	二手参考价	评级
RTX 3060 12GB	12GB	360 GB/s	GDDR6	12.7 TFLOPS	170W	¥1,900	¥900-1,200	★★★ 入门首选
RTX 4060 Ti 16GB	16GB	288 GB/s	GDDR6	22.1 TFLOPS	165W	¥3,200	¥2,500	★★★★ 大显存入门
RTX 4070 Super 12GB	12GB	504 GB/s	GDDR6X	35.5 TFLOPS	220W	¥4,800	¥3,800	★★ 显存太小
RTX 4070 Ti Super	16GB	672 GB/s	GDDR6X	44.1 TFLOPS	285W	¥6,500	¥5,000	★★★★ 中高端甜点
RTX 5060 Ti 16GB	16GB	448 GB/s	GDDR7	28.4 TFLOPS	180W	¥4,599	---	★★★★ 新一代入门
RTX 5070 Ti 16GB	16GB	640 GB/s	GDDR7	47.3 TFLOPS	250W	¥7,500	---	★★★★ 新一代主力
RTX 2080 Ti 22GB（改）	22GB	616 GB/s	GDDR6	26.9 TFLOPS	250W	---	¥1,800-2,500	★★★ 魔改有风险
RTX 3090 24GB	24GB	936 GB/s	GDDR6X	35.6 TFLOPS	350W	已停产	¥5,500-7,000	★★★★★ 性价比之王
RTX 4090 24GB	24GB	1,008 GB/s	GDDR6X	82.6 TFLOPS	450W	¥12,000-14,000	¥7,000-8,500	★★★★★ 全能旗舰
RTX 5090 32GB	32GB	1,792 GB/s	GDDR7	~104 TFLOPS	550W	¥14,000-16,000	极少	★★★★★ 消费级天花板
RTX 5090D V2 24GB	24GB	1,600 GB/s	GDDR7	~85 TFLOPS	500W	¥19,000	---	★★★★ 国内特供
RTX PRO 6000 96GB	96GB	960 GB/s	GDDR7	~91 TFLOPS	300W	~¥100,000	---	★★★★ 工作站级

3.2 各显卡适配模型速查（INT4 量化）

显卡	显存	7B/8B Q4	14B Q4	27B/32B Q4	70B/72B Q3	70B/72B Q4	推荐用途
RTX 3060 12GB	12GB	✅ 流畅	✅ 可用	❌	❌	❌	学习、日常助手
RTX 4060 Ti 16GB	16GB	✅ 流畅	✅ 流畅	⚠️ 勉强	❌	❌	9B 模型甜点
RTX 4070 Ti S	16GB	✅ 流畅	✅ 流畅	⚠️ 勉强	❌	❌	编程助手
RTX 5060 Ti 16GB	16GB	✅ 流畅	✅ 流畅	⚠️ 勉强	❌	❌	新一代入门
RTX 5070 Ti 16GB	16GB	✅ 流畅	✅ 流畅	⚠️ 勉强	❌	❌	高性能入门
RTX 2080Ti 22G	22GB	✅ 流畅	✅ 流畅	✅ 可用	❌	❌	魔改性价比
RTX 3090 24GB	24GB	✅ 流畅	✅ 流畅	✅ 流畅	⚠️ 极勉强	❌	推荐消费级之选
RTX 4090 24GB	24GB	✅ 极快	✅ 极快	✅ 流畅	⚠️ 勉强	❌	最强消费单卡
RTX 5090 32GB	32GB	✅ 极快	✅ 极快	✅ 全精度	⚠️ Q3	❌	消费级新王
双 RTX 3090	48GB	✅ 浪费	✅ 浪费	✅ 全精度	✅ Q3	✅ Q4	70B 最低门槛
RTX PRO 6000	96GB	✅ 浪费	✅ 浪费	✅ 全精度	✅ Q4	✅ Q4/Q6	单卡 72B 自由

图例：✅ 流畅（>15 tok/s）｜✅ 可用（8-15 tok/s）｜⚠️ 勉强（<8 tok/s / 上下文受限）｜❌ 无法加载

3.3 消费级显卡推荐路径

复制代码

预算 ¥4,000-6,000  → RTX 3060 12GB（二手 ¥1,000）/ RTX 4060 Ti 16GB（新 ¥3,200）
                    跑 7B-9B INT4，日常问答、写作足够

预算 ¥10,000-15,000 → RTX 3090 24GB（二手 ¥6,000）⭐ 强烈推荐
                    跑 32B INT4，能力接近 GPT-4，绝大多数人的甜点

预算 ¥20,000-30,000 → RTX 4090 24GB / RTX 5090 32GB
                    跑 32B 全精度或 70B INT4，消费级最强

预算 ¥30,000-50,000 → 双 RTX 3090 48GB / 双 RTX 4090
                    跑 70B 量化稳定，专业开发首选

第四章服务器级 GPU 全景对比（A100 / H100 / H200 / L40S 等）

4.1 核心参数一览

型号	面向市场	显存	显存类型	显存带宽	FP16 算力	TF32 算力	功耗	多卡互联	定位
A100 40GB	全球	40GB	HBM2e	2,039 GB/s	312 TFLOPS	156 TFLOPS	400W	NVLink 600GB/s	入门 AI 卡
A100 80GB	全球	80GB	HBM2e	2,039 GB/s	312 TFLOPS	156 TFLOPS	500W	NVLink 600GB/s	上代性价比
A800 80GB	国内	80GB	HBM2e	2,039 GB/s	312 TFLOPS	156 TFLOPS	500W	NVLink 400GB/s（限）	国内合规版
H100 PCIe	全球	80GB	HBM3	2,000 GB/s	578 TFLOPS	289 TFLOPS	350W	PCIe 仅 32GB/s	单卡推理，别组多卡
H100 SXM	全球	80GB	HBM3	3,350 GB/s	990 TFLOPS	495 TFLOPS	700W	NVSwitch 900GB/s	当代旗舰，训练最优
H800 SXM	国内	80GB	HBM3	3,350 GB/s	990 TFLOPS	495 TFLOPS	700W	NVSwitch 400GB/s（限）	国内合规版
H200	全球	141GB	HBM3e	4,800 GB/s	990 TFLOPS	495 TFLOPS	700W	NVSwitch 900GB/s	超大显存推理
H20	国内特供	96GB	HBM3	4,000 GB/s	148 TFLOPS	74 TFLOPS	~350W	PCIe	国内推理性价比
B200	全球	192GB	HBM3e	8,000 GB/s	2,250 TFLOPS	---	1,000W	NVSwitch 1,800GB/s	下一代旗舰
L40S	全球	48GB	GDDR6	864 GB/s	~91 TFLOPS	---	300W	PCIe	轻量推理
L20	国内	48GB	GDDR6	~900 GB/s	~86 TFLOPS	---	275W	PCIe	国内推理入门

4.2 推理性能实测对比（7B FP16 模型）

GPU	理论速度上限	实测速度	单卡可跑最大模型（INT4）	高并发能力
L40S	~31 tok/s	~20 tok/s	27B（48GB）	一般
A100 80GB	~73 tok/s	~47 tok/s	32B 全精度	优秀
H100 SXM	~120 tok/s	~78 tok/s	32B 全精度	极强
H200	~170 tok/s	~110 tok/s	70B Q4 单卡	超强
H20	~140 tok/s	~90 tok/s	70B Q3 单卡	强（推理专用）

结论：H100 SXM 推理速度是 L40S 的 3-4 倍，差距主要来自显存带宽而非算力。H20 虽然算力仅为 H100 的 15%，但因其 96GB 大显存 + 4TB/s 高带宽，在推理场景性价比较高。

4.3 服务器级 GPU 选型决策表

场景	首选 GPU	次选	预算控制
7B-13B 推理（高并发）	A100 40GB	L40S 48GB	¥5-10 万
32B-70B 推理（单卡）	H200 141GB	H20 96GB	¥15-30 万
70B+ 推理（多卡）	4×A100 80GB	2×H100 SXM	¥30-60 万
千亿参数推理	8×H200	8×H100 SXM	¥150-300 万
7B-13B 微调训练	A100 80GB	2×RTX 4090	¥8-15 万
32B-70B 全参训练	8×H100 SXM	8×A100 80GB	¥80-150 万
70B LoRA 微调	4×A100 80GB	2×H100 SXM	¥30-50 万
预算敏感推理	H20 96GB	RTX 6000 Ada	¥10-15 万/卡

4.4 H100 SXM vs H100 PCIe ------ 多卡场景天壤之别

维度	H100 SXM	H100 PCIe
显存带宽	3.35 TB/s	2.0 TB/s
FP16 算力	990 TFLOPS	578 TFLOPS
多卡互联	NVSwitch 900 GB/s	PCIe 32 GB/s（慢 28 倍！）
功耗	700W	350W
适用场景	多卡训练 / 推理	单卡推理
采购检查	须确认 SXM + NVSwitch	不适合多卡

⚠️ 踩坑实录：有团队买了 2 张 H100 PCIe 做多卡并行，结果卡间通信只有 32GB/s（SXM 版是 900GB/s），8 卡加速比仅 3.5x 而非预期的 6.5x。

第五章苹果 Apple Silicon 统一内存方案

5.1 核心逻辑

Mac 走的是「统一内存」路线：CPU 和 GPU 共享同一块内存，没有独立显存。这意味着 Mac 可以跑 NVIDIA 方案完全加载不了的大模型，但推理速度慢于同价位的 NVIDIA 方案。

选 Mac 还是 NVIDIA？一句话：要速度选 NVIDIA，要安静省心选 Mac，要跑超大模型（100B+）选 Mac 大内存版。

5.2 苹果芯片核心 AI 参数

芯片	内存带宽	GPU 核心数	最大统一内存	等效可用显存	AI 档位
M4（基础版）	120 GB/s	10	32GB	~24GB	入门
M4 Pro	273 GB/s	20	64GB	~56GB	Pro 级
M4 Max	410-546 GB/s	32-40	128GB	~120GB	专业
M3 Pro	150 GB/s	18	36GB	~28GB	入门 Pro
M3 Max	300-400 GB/s	30-40	128GB	~120GB	专业
M3 Ultra	800 GB/s	60-80	512GB	~480GB	旗舰
M2 Ultra	800 GB/s	60-76	192GB	~180GB	上一代旗舰

5.3 各内存规格适配模型速查

统一内存	可跑模型（INT4 Q4_K_M）	实际可用显存	体验
8GB	3B 模型（Llama 3.2 3B、Phi-4 Mini）	~5GB	勉强可用，仅学习
16GB	7B-8B（Qwen3-8B、Llama 3.1 8B）	~12GB	入门甜点，日常体验佳
24GB	14B（Qwen3-14B、DeepSeek-R1-14B）	~20GB	质的飞跃，性价比甜点
36-48GB	32B（Qwen3-32B、DeepSeek-R1-32B）	~30-42GB	本地 AI 最佳体验
64-96GB	70B（Llama 3.3 70B、Qwen2.5 72B）	~55-85GB	云端 API 质量，跑在桌面
128GB+	100B+（Qwen3-235B、DeepSeek-V3）	~115GB+	无限制，想做就做

5.4 Mac 各机型实测推理速度（tok/s）

测试条件：Ollama，Q4_K_M 量化，500 tokens 输入生成 200 tokens。

设备	内存	带宽	8B 模型	14B 模型	32B 模型	70B 模型
M4 Mac Mini 16GB	16GB	120GB/s	38 tok/s	❌	❌	❌
M4 Pro Mini 48GB	48GB	273GB/s	42 tok/s	24 tok/s	11 tok/s	❌ 内存不够
M3 Max MBP 64GB	64GB	300GB/s	58 tok/s	33 tok/s	15 tok/s	7.5 tok/s
M3 Max Studio 128GB	128GB	400GB/s	72 tok/s	41 tok/s	19 tok/s	9.8 tok/s
M2 Ultra Studio 192GB	192GB	800GB/s	~95 tok/s	~55 tok/s	~26 tok/s	~14 tok/s

核心结论：

内存带宽 > 芯片代数：M3 Max（400GB/s）跑 LLM 比 M4 Pro（273GB/s）快 30-70%
70B 需要 64GB + Max 级带宽作为硬门槛
48GB Mac Mini M4 Pro 是本地跑 32B 的最佳性价比（¥11,999）
128GB Mac Studio 可直接跑 70B Q4 量化 42GB 权重，而 PC 单卡 24GB 完全无法对标

5.5 Mac vs NVIDIA 终极对比

维度	Mac 方案	NVIDIA 方案
最大可跑模型	100B+（大内存版）	70B INT4（双卡）/ 32B（单卡）
推理速度（32B）	12-22 tok/s	40+ tok/s（4090）
噪音	极低	中-高（风扇啸叫）
功耗（满载）	60-100W	500-1000W
静音 7×24	✅ 完美	⚠️ 需散热方案
GPU 升级	无	可更换
出图（SD/Flux）	慢 30-50%	快
适合人群	静音需求、Mac 生态、隐私优先	追求速度、可折腾、预算灵活

5.6 Mac 选购避雷

❌ M3 Pro：带宽从 M2 Pro 的 200GB/s 倒退到 150GB/s，AI 场景不如 M2 Pro
❌ 24GB 内存版任何 Mac：2026 年入门 32B 都不够
❌ M4 基础版：16GB 只能跑 8B，不划算
❌ Intel Mac：不支持 Metal LLM 加速
✅ 首选：M4 Pro 48GB Mac Mini（预算 ¥12,000）或 M3 Max 64GB Mac Studio（预算 ¥15,000-20,000）

第六章主流大模型 × 硬件适配完整对照表

6.1 2026 年六大主流开源模型硬件需求总表（INT4 Q4_K_M 量化）

模型	参数量	INT4 权重	推荐最低显存	推荐单卡	推荐多卡	实测速度（t/s）
DeepSeek-R1 1.5B	1.5B	~1GB	4GB	核显即可	---	50+
Qwen3.5-0.8B	0.8B	~0.5GB	无需独显	CPU+16GB 内存	---	60+
Phi-4 Mini	3.8B	~2.5GB	4GB	RTX 3060	---	25-35
Gemma 3	4B	~3.2GB	8GB	RTX 3060	---	30-45
Qwen3-8B	8B	~5GB	8GB	RTX 3060 12GB	---	40-55（4090）
Llama 3.1 8B	8B	~4.5GB	8GB	RTX 3060 12GB	---	45-60（4090）
DeepSeek-R1-Distill-8B	8B	~4.5GB	8GB	RTX 3060 12GB	---	35-50
GLM-Z1-9B	9B	~5.5GB	8GB	RTX 3060 12GB	---	45-60（4090）
Qwen3-14B	14B	~9GB	12GB	RTX 3060 12GB	---	25-40（4090）
DeepSeek-R1-Distill-14B	14B	~8.5GB	12GB	RTX 3060 12GB	---	20-35
Qwen3-Coder-30B-A3B	30B MoE	~2.5GB	8GB	RTX 3060	---	40-60
DeepSeek-V3-lite	16B	~6.8GB	8GB	RTX 3060	---	25-40
Qwen3-27B	27B（Dense）	~18GB	24GB	RTX 3090/4090	---	20-30（4090）
Qwen3.5-32B	32B	~18GB	24GB	RTX 4090 24GB	---	25-40（4090）
DeepSeek-R1-Distill-32B	32B	~19GB	24GB	RTX 3090/4090	---	15-22
GLM-Z1-32B	32B	~18GB	24GB	RTX 3090/4090	---	20-30
Yi-1.5-34B	34B	~20GB	24GB	RTX 3090/4090	---	15-20
DeepSeek-V3.2 蒸馏32B	32B	~20GB	24GB	RTX 4090 24GB	---	20-30
Qwen3.5-72B	72B	~42GB	48GB+	H20 96GB	双 3090 48GB	8-12（双 3090）
Llama 3.3 70B	70B	~40GB	48GB+	H200 141GB	双 4090 48GB	8-15（双 4090）
DeepSeek-R1-Distill-70B	70B	~40GB	48GB+	H20 96GB	双 4090 48GB	8-14
Qwen3.5-122B	122B	~74GB	80GB+	A100 80GB	4×A100	5-10
Qwen3-235B-A22B	235B MoE	~88GB	96GB+	H200 141GB	4×A100	5-10
DeepSeek-V3.2	685B MoE	~340GB(FP8)	400GB+	---	8×H100 80GB	15-30
Llama 4 Maverick	400B MoE	~200GB(INT4)	200GB+	---	4×H200	10-20

说明：实测速度为单卡最大可用显存下的参考数据，实际速度受推理框架、上下文长度、batch size 等因素影响。

6.2 按显存容量反向选模型（消费级）

你的显存	推荐模型（INT4）	体验等级
4GB	Phi-4-Mini、Gemma 3 4B	⭐⭐ 入门体验
8GB	Qwen3-8B、Llama 3.1 8B、DeepSeek-V3-lite	⭐⭐⭐ 日常可用
12GB	Qwen3-14B、DeepSeek-R1-14B	⭐⭐⭐⭐ 质的提升
16GB	14B 全精度、32B 量化（勉强）	⭐⭐⭐⭐ 足够好用
24GB	Qwen3.5-32B、DeepSeek-R1-32B	⭐⭐⭐⭐⭐ 消费级甜点
32GB	32B 全精度、MoE 模型	⭐⭐⭐⭐⭐ 接近天花板
48GB+	70B-72B INT4	⭐⭐⭐⭐⭐ 云端级质量

6.3 按使用场景推荐模型+硬件组合

使用场景	推荐模型	推荐硬件	预算
日常问答 / 写作	Qwen3-8B Q5	RTX 3060 12GB / M4 16GB	¥5,000-8,000
编程助手	Qwen3.5-32B Q4 / DeepSeek-V3-16B	RTX 3090 24GB	¥10,000-15,000
中文创作 / 翻译	Qwen3.5-32B Q4	RTX 4090 24GB / M4 Pro 48GB	¥12,000-18,000
数学推理 / 竞赛	DeepSeek-R1-32B Q4	RTX 3090 24GB	¥10,000-15,000
长文档分析	Yi-1.5-34B Q4（200K 上下文）	RTX 3090 24GB	¥10,000-15,000
知识库 / RAG	Qwen3.5-32B Q4 + BGE-M3 Embedding	RTX 3090 24GB	¥10,000-15,000
多模态 / 视觉	Qwen3-VL-8B	RTX 4060 Ti 16GB	¥8,000-12,000
企业级智能客服	Qwen3.5-72B Q4	H20 96GB / 双 3090	¥15,000-30,000
超长上下文（10M）	Llama 4 Scout 109B Q2	RTX 4090 24GB / MAC 128GB	¥15,000-40,000
追求高质量输出	Qwen3.5-72B Q4	Dual RTX 4090 / M4 Max 128GB	¥25,000-35,000

第七章训练 vs 推理：硬件需求的核心差异

7.1 总览

维度	推理（Inference）	训练/微调（Training/Fine-tuning）
瓶颈资源	显存带宽（GB/s）	算力（TFLOPS） + 显存容量
显存需求倍数	1x	3-4x（全参） / 1.5-2x（LoRA）
对量化精度敏感度	低（INT4 可用）	高（需要 BF16/FP16）
推荐 GPU 类型	大显存 + 高带宽	高算力 + 大显存 + NVLink
关键特性	PagedAttention、Flash Attention	Tensor Cores、NVLink 互联
消费级可行性	✅ 完全可行	⚠️ 仅小模型（<13B）
量化是否推荐	✅ 强烈推荐 INT4/INT8	⚠️ 训练用 BF16/FP16，QLoRA 可用 INT4

7.2 训练显存详细估算

复制代码

全参数微调显存 ≈ 模型权重 + 优化器状态（2×权重）+ 梯度（1×权重）+ 激活值
               ≈ 4× 模型权重（FP16）+ 激活值

LoRA 微调显存 ≈ 模型权重 + LoRA 适配器 + 激活值
              ≈ 1.2× 模型权重（FP16）+ 激活值

各模型训练所需 GPU 组合：

模型	全参微调（FP16）	LoRA 微调（FP16）	QLoRA（INT4）
Qwen3-8B	1×A100 80GB（60GB）	1×RTX 4090 24GB（22GB）	1×RTX 3090 24GB（15GB）
Qwen3-14B	2×A100 80GB（110GB）	1×A100 80GB（40GB）	1×RTX 4090 24GB（22GB）
Qwen3.5-32B	4×A100 80GB（250GB）	2×A100 80GB（100GB）	1×RTX 4090 24GB（24GB）
Qwen3.5-72B	8×A100 80GB（550GB）	4×A100 80GB（220GB）	2×RTX 4090 48GB（45GB）

7.3 租赁 GPU 避坑

坑	实际情况	避坑方案
预估 3 天跑完，实际 5 天	GPU 租赁「按卡时计费」，含调试空闲时间	调试用 T4/V100，正式跑用 A100/H100
竞价实例便宜但被中断	价格低 50-70% 但随时可能被回收	配合 Checkpoint 断点续训
数据加载拖慢训练	GPU 利用率仅 30%，大部分时间等 I/O	预加载到内存、用高速 NVMe
8 卡 ≠ 8x 速度	PCIe 版多卡加速比仅 3.5x	SXM + NVSwitch 可达 6.5x

第八章多 GPU 并行方案实战

8.1 互联技术对比

技术	带宽	适用 GPU	性价比	适合
PCIe 4.0 ×16	32 GB/s	所有消费级 GPU	高	数据并行、单卡推理
PCIe 5.0 ×16	64 GB/s	RTX 50 系	高	数据并行
NVLink 3.0	600 GB/s	A100	中	张量并行、多卡推理
NVLink 4.0	900 GB/s	H100 SXM	低	大规模训练
NVSwitch	900 GB/s per link	H100 SXM（全互联）	最低	8 卡训练集群

8.2 多卡加速比实测

互联方式	2 卡	4 卡	8 卡
PCIe Gen4	1.6x	2.5x	3.5x
NVLink 4.0	1.8x	3.2x	5.5x
NVSwitch + 优化	1.9x	3.5x	6.5x

⚠️ 核心教训 ：8 卡通常只能达到 5-6.5 倍加速，不要期望线性增长。优先选单卡能力强的 GPU 比堆卡数更划算。

8.3 双卡消费级显卡部署 70B 模型

复制代码

# Ollama 双 GPU 配置
# 先设置环境变量
export OLLAMA_NUM_GPU=2

# 拉取 70B 量化模型
ollama pull deepseek-r1:70b-q4_K_M

# 运行
ollama run deepseek-r1:70b-q4_K_M

注意事项：

两张卡必须相同型号（如两张 RTX 3090），Ollama 不支持异构多卡
如果只有一张 NVIDIA + CPU 共享内存模式，可限制 GPU 层数：
复制代码
```
ollama run deepseek-r1:70b --num-gpu-layers 40
```
电源必须够------双 3090 满载功耗 ~700W，建议 1200W 金牌以上电源

第九章各预算档位完整配置方案（2026 年 6 月）

方案 A：零成本入门 ------ 无需独显

硬件	推荐型号	价格
CPU	Intel i3 / 任意双核以上	利用现有
内存	16GB DDR4	利用现有
存储	256GB SSD	利用现有
显卡	无需独显（CPU 推理）	¥0
可跑模型	Qwen3.5-0.8B（Q4 不到 1GB）
推理速度	5-10 tok/s
能做什么	体验本地 AI 是什么感觉，简单问答、翻译
总预算	利用现有硬件

💡 建议：如果只是体验，不如直接用云端 API（如 DeepSeek API 免费额度）。

方案 B：入门学习型 ------ 预算 ¥4,000-6,000 ⭐

目标：流畅运行 7B-9B INT4 量化模型

配件	推荐型号	价格
CPU	Intel i5-12400F / AMD R5 5600	¥600-800
显卡	RTX 3060 12GB（二手）或 RTX 4060 Ti 16GB（新）	¥1,200 / ¥3,200
内存	32GB DDR4 3200MHz	¥400
存储	1TB NVMe SSD	¥400
主板	B660M / B550M	¥500
电源	650W 铜牌	¥350
机箱	普通 ATX	¥200
合计		¥3,650-5,850

性能表现：DeepSeek-R1-7B 30-45 tok/s，日常对话流畅，代码补全延迟 < 1 秒。

方案 C：进阶主力型 ------ 预算 ¥12,000-18,000 ⭐⭐ 强烈推荐

目标：流畅运行 14B-32B INT4 量化模型

配件	推荐型号	价格
CPU	Intel i7-13700F / AMD R7 7800X3D	¥1,800-2,500
显卡	RTX 3090 24GB（二手）	¥6,000
内存	64GB DDR5 5600MHz	¥1,200
存储	2TB NVMe Gen4 SSD	¥800
主板	Z790 / B650	¥1,200
电源	1000W 金牌全模组	¥800
散热	360 水冷（3090 发热量巨大）	¥500
机箱	中塔通风机箱	¥400
合计		¥12,700-13,400

为什么是 3090 而不是 4090？ RTX 3090 的 24GB 显存与 4090 相同，LLM 推理场景下显存大小比算力重要得多。3090 的 936 GB/s 带宽跑 32B INT4 绰绰有余，价格只有 4090 的一半。

性能表现：Qwen3.5-32B INT4 约 18-25 tok/s，可同时跑 RAG 知识库 + 对话 Agent。

方案 D：性能发烧型 ------ 预算 ¥25,000-35,000

目标：流畅运行 70B 量化模型或 32B 全精度

配件	价格
RTX 5090 32GB（单卡）	¥14,000
或双 RTX 3090 24GB（双卡 48GB）	¥12,000
其余配件（CPU、内存、主板、电源等）	¥13,000-15,000
合计	¥25,000-29,000

方案	显存	优势	劣势
单 RTX 5090 32GB	32GB	省心、驱动稳、低功耗，32B 全精度跑满	价格高
双 RTX 3090 48GB	48GB	便宜，能完整跑 70B INT4（~42GB）	功耗 700W+，部分模型需手动并行配置

性能表现：双 3090 跑 DeepSeek-R1-70B INT4 约 8-12 tok/s，速度不快但能用。单 5090 跑 Qwen3.5-32B 全精度约 35-50 tok/s。

方案 E：Mac 静音方案

设备	统一内存	可跑模型	价格	推荐度
Mac Mini M4 Pro 48GB	48GB	32B 全精度	¥11,999	⭐⭐⭐⭐⭐ 最佳性价比
Mac Studio M3 Max 64GB	64GB	70B INT4	¥18,000-20,000	⭐⭐⭐⭐ 跑 70B 甜点
Mac Studio M3 Max 128GB	128GB	100B+ Q4	¥28,000-32,000	⭐⭐⭐⭐ 无限制
MacBook Pro M4 Max 48GB	48GB	32B 全精度	¥25,999	⭐⭐⭐⭐ 移动首选

方案 F：企业服务器方案

目标	推荐配置	月租（云）	采购（自建）
7B-13B 高并发推理	1×A100 80GB	¥8,000-12,000/月	¥15-25 万
32B 推理服务	1×H20 96GB 或 2×A100 80GB	¥5,000-10,000/月	¥10-20 万
70B 推理服务	4×A100 80GB 或 2×H100 SXM	¥25,000-40,000/月	¥40-60 万
千亿参数推理	8×H200	¥150,000-200,000/月	¥200-300 万

第十章云 GPU vs 自建硬件成本对比

10.1 各服务商价格参考（2026 年 6 月）

服务商	配置	价格	适合
AutoDL	RTX 3090 24GB	¥1,500-2,000/月（按量）	个人开发者、实验
AutoDL	A100 40GB	¥4,000-5,000/月（按量）	中小团队训练
阿里云 PAI	A100 80GB	¥8,000-12,000/月	企业生产
腾讯云 GPU	GN10Xp 24GB	¥6,000-9,000/月	企业推理服务
AWS	g4dn.xlarge 16GB	$600-800/月	海外业务
AWS	p4d.24xlarge 8×A100	$32/小时	大规模训练

10.2 自建 vs 租赁盈亏平衡点

复制代码

自建成本 ¥15,000（RTX 3090 整机）
÷ AutoDL 租赁 ¥1,800/月
= 8.3 个月回本

如果每天使用超过 4 小时 → 自建更划算
如果偶尔实验/项目驱动    → 租赁更灵活

建议路径：

学习/实验阶段：AutoDL 按量付费，先用 T4/V100 调通代码
开发/迭代阶段：自建一台 RTX 3090/4090 主力机
生产部署阶段：企业云服务（阿里云/腾讯云）+ SLA 保障

第十一章部署工具与框架硬件适配

11.1 三大工具硬件效率对比

工具	推理速度（8B INT4, RTX 4090）	显存效率	并发能力	适合
Ollama（llama.cpp 后端）	40-55 tok/s	⭐⭐⭐ 中等	❌ 串行排队	个人使用、API 服务
vLLM	60-80 tok/s	⭐⭐⭐⭐⭐ 最高	✅ 真并发（50-100）	生产环境高并发
LM Studio	35-50 tok/s	⭐⭐ 较高开销	❌ 无 API	非技术人员、GUI
MLX-LM （Mac专用）	45-70 tok/s（Mac）	⭐⭐⭐⭐ 高	❌ 单会话	Mac 极致速度

11.2 框架选型决策

复制代码

你是开发者吗？
├─ 是 → 需要高并发吗？
│      ├─ 是 → vLLM + Docker + NVIDIA GPU
│      └─ 否 → Ollama（一行命令，OpenAI 兼容 API）
└─ 否 → LM Studio（GUI 操作，点点鼠标）

vLLM 并发实测（Qwen2.5-1.5B，T4 16GB）：

并发数	KV Cache 使用量	Token 总量
1	0.254 GB	1 万
5	1.280 GB	5 万
10	2.572 GB	10 万
11	2.821 GB（接近上限）	11 万

结论：vLLM 的 PagedAttention 技术使相同显存下，并发能力比传统推理强约 6 倍。

第十二章显存不足时的优化策略

12.1 优先级排序

优先级	策略	效果	代价
1	提高量化级别（FP16 → INT4）	显存降至 1/4	质量降 3-5%
2	缩短上下文长度（32K → 8K）	KV Cache 减少 75%	长文分析能力下降
3	GPU 层数限制（num-gpu-layers）	用 CPU 内存补偿	速度降至 2-5 tok/s
4	换更小的模型（32B → 14B → 8B）	显著降低显存	能力下降
5	换用 vLLM	提升 20-30% 显存效率	学习成本

12.2 GPU Offloading 实战

复制代码

# Ollama 部分层回退到 CPU 内存
ollama run qwen3.5:32b --num-gpu-layers 20
# 仅前 20 层在 GPU，其余在 CPU 内存
# 显存压力↓，但速度断崖式跌到 2-5 tok/s

# vLLM 限制 GPU 显存使用率
vllm serve /path/to/model --gpu-memory-utilization 0.7
# 仅使用 70% GPU 显存，剩余依赖 CPU swap

第十三章避坑大全

13.1 显卡选购避坑

坑	说明	避坑方案
❌ RTX 4070 Super 12GB	显存太小，14B 模型装不下	加钱上 3090 24GB 或 4060 Ti 16GB
❌ RTX 4060 8GB	仅 8GB，只能跑小模型	至少选 12GB 版或 Ti 16GB
❌ T4 16GB	算力 7.5，不支持 BF16/FlashAttention-2	宁选 RTX 3060 也不选 T4
❌ A10 24GB	推理训练性能差	同预算选 RTX 3090
❌ 魔改 2080Ti 22GB	脱焊、掉驱动、无保修	除非动手能力极强，否则远离
❌ 矿卡翻新 4090	BIOS 被刷、寿命未知	京东自营 / 官方认证二手
❌ AMD 显卡	ROCm 兼容性差，新模型首发用不了	老老实实 NVIDIA CUDA 生态
✅ RTX 3090 二手	24GB + 936GB/s，¥6,000	性价比之王，注意验 3DMark 压力测试
✅ RTX 5090	32GB GDDR7 消费旗舰	预算充足一步到位

13.2 Mac 选购避坑

避坑	原因
❌ M3 Pro	带宽从 M2 Pro 200GB/s 倒退到 150GB/s
❌ 24GB 以下统一内存	2026 年连 32B Q4 都跑不畅
❌ M4 基础版	16GB 仅够 8B 模型
❌ Intel Mac	不支持 Metal LLM 加速
❌ 闲鱼「美版全新便宜 30%」	大概率贴牌翻新或保修失效
✅ M4 Pro 48GB Mac Mini	¥11,999，32B 本地 AI 最佳性价比
✅ M3 Max 64GB Mac Studio	二手/官翻 ¥15,000-20,000，70B 入门甜点

13.3 服务器避坑

坑	实例	解决方案
只算算力不算显存	买了 2×A100 40GB（共 80GB）想跑 70B FP16（需 140GB+80GB 开销）	先算显存需求！公式见第二章
H100 PCIe 还是 SXM 分不清	PCIe 版多卡通信 32GB/s，SXM 900GB/s	多卡必选 SXM + NVSwitch
8 卡 ≠ 8x 速度	PCIe 版 8 卡加速比仅 3.5x	SXM 版可达 6.5x
忽略显存带宽	L40S（864GB/s）跑 7B 仅 20 tok/s，预期 100	推理看带宽，优先选 HBM 系列
租赁 GPU 预算超支	预估 3 天实际 5 天	调试用便宜卡，正式跑用高性能卡

第十四章五个热门实操案例

案例 14.1：¥6,000 打造 AI 编程工作站

需求：用 RTX 3090 24GB 搭建本地编程助手，替代 GitHub Copilot

配置：

复制代码

# 系统：Ubuntu 24.04 + RTX 3090 24GB
# 框架：Ollama

# 1. 部署编程专用模型
ollama pull qwen3.5-coder:32b-q4_K_M

# 2. 配置 VS Code Continue 扩展
# settings.json:
{
"models": [{
"title": "Local Qwen3.5-Coder",
"provider": "ollama",
"model": "qwen3.5-coder:32b-q4_K_M"
  }]
}

# 3. Claude Code 接入
export ANTHROPIC_BASE_URL="http://localhost:11434/v1"
export ANTHROPIC_API_KEY="ollama"
claude

效果：32B 模型代码补全延迟 < 2 秒，中等难度 LeetCode 通过率 31%。

案例 14.2：双 3090 跑 70B 模型

需求：在消费级硬件上体验 GPT-4 级别能力

配置：

复制代码

# 硬件：2× RTX 3090 24GB + 1200W 电源
# 系统：Ubuntu 24.04

# 1. 确保两张卡型号相同
nvidia-smi  # 确认两张都是 RTX 3090

# 2. 配置 Ollama 双卡
export OLLAMA_NUM_GPU=2

# 3. 拉取 70B 量化模型
ollama pull deepseek-r1:70b-q4_K_M

# 4. 运行
ollama run deepseek-r1:70b-q4_K_M

效果：Q4_K_M 量化权重约 40GB（每张卡 20GB），推理速度 8-12 tok/s，上下文 8K。速度不快但质量到位。

案例 14.3：Mac Mini M4 Pro 48GB 打造静音 AI 工作站

需求：安静的本地 AI，24×7 运行，不限流

配置：Mac Mini M4 Pro 48GB + 外接 2TB NVMe 雷雳 4 硬盘盒

复制代码

# 1. 安装 Ollama
brew install ollama

# 2. 模型常驻内存（Agent 场景必开）
OLLAMA_KEEP_ALIVE=1h ollama serve

# 3. 拉取模型
ollama pull qwen3:32b-q4_K_M
ollama pull llama3.1:8b-q4_K_M  # 快速模型备用
ollama pull nomic-embed-text     # RAG Embedding

# 4. 国内加速
export OLLAMA_REGISTRY="https://hf-mirror.com"

效果：32B 模型 11 tok/s，满载功耗 65W，静音无感，全年电费不到 ¥300（按 ¥0.6/度算）。

案例 14.4：企业级 RAG 知识库方案

需求：搭建企业私有知识库，支持 50 人并发查询

硬件方案：1×A100 80GB + 1TB NVMe SSD

复制代码

# 架构：vLLM (推理) + LangChain (RAG) + ChromaDB (向量库)

# 1. vLLM 推理服务
vllm serve Qwen/Qwen3.5-32B-Instruct \
    --max-model-len16384 \
    --gpu-memory-utilization 0.85 \
    --tensor-parallel-size 1

# 2. Embedding 模型
# BGE-M3 占用约 2GB，预留显存

# 3. RAG Pipeline
from langchain_community.vectorstores import Chroma
from langchain_huggingface import HuggingFaceEmbeddings

embedding = HuggingFaceEmbeddings(
    model_name="BAAI/bge-m3",
    model_kwargs={"device": "cuda"}
)

# 4. 链式调用
from langchain.chains import RetrievalQA
qa_chain = RetrievalQA.from_chain_type(
    llm=vllm_llm,
    retriever=vector_store.as_retriever()
)

硬件需求总结：32B 推理 22GB + Embedding 2GB + 向量库预留 16GB + KV Cache + 并发 = 建议 80GB 显存起步（A100 正好）。

案例 14.5：低成本服务器推理方案（H20）

需求：国内合规、高性价比的 70B 推理服务

GPU：NVIDIA H20 96GB

复制代码

# H20 核心优势：96GB 大显存 + 4TB/s 高带宽
# 虽然算力仅 148 TFLOPS（H100 的 15%），但推理看带宽

# vLLM 部署 70B INT4
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-72B \
    --max-model-len 16384 \
    --gpu-memory-utilization 0.9 \
    --max-num-seqs 32

效果：70B INT4 单卡 90+ tok/s，支持 32 并发，月功耗约 ¥600。

第十五章 FAQ 常见问题

Q1：我只有 8GB 显存的笔记本，能跑大模型吗？

能，但需接受限制。RTX 4060 8GB 推荐 Ollama + Qwen3-8B Q5（~6.2GB 显存），速度 12-18 tok/s，日常问答和写代码够用。想跑 14B 需要 16GB 显存。如果只有核显，试试 Phi-4-mini。

Q2：32B INT4 和 70B INT4 选哪个？

如果只有 24GB 显存，只能选 32B。32B INT4（Q4_K_M）在 MMLU-Pro 上得分接近 GPT-4o-mini，翻译质量与 GPT-4o 仅差 3 处措辞。70B 需要 48GB+ 显存（双卡或服务器），但在多个任务上有显著质量提升。宁可 32B Q5 也不 70B Q2。

Q3：为什么我的 RTX 4090 跑 32B 模型只有 10 tok/s？

可能是 CUDA 版本问题。实测 CUDA 11.8 下 Qwen3-8B 仅 8 tok/s，升级到 CUDA 12.4+ 速度翻倍至 16 tok/s。32B 模型需确认使用了 Flash Attention 和正确的 GPU 层数。

Q4：Mac 和 NVIDIA 哪个更适合本地跑大模型？

要速度（40+ tok/s 跑 32B）→ NVIDIA RTX 4090
要安静（0 噪音 24×7）→ Mac Studio
要跑超大模型（100B+）→ Mac 128GB 统一内存
要出图（Stable Diffusion、Flux）→ NVIDIA 4090

Q5：双 GPU 型号不同能一起用吗？

Ollama 不支持异构多卡，要求两张卡型号完全相同（如两张 RTX 3090）。vLLM 可通过张量并行支持同代同架构的 GPU，但不能 NVIDIA + AMD 混搭。

Q6：AMD 显卡能用吗？

理论上通过 ROCm 框架支持，但实际上：

性能打八折（兼容层翻译损耗）
新模型首发经常不支持
报错可能是底层编译问题，社区答案少
结论：2026 年不建议 AMD 显卡跑大模型

Q7：量化模型质量损失到底有多大？

量化	压缩比	质量损失	推荐场景
Q8（8位）	~50%	<1% 几乎无损	显存充足的旗舰卡
Q5_K_M	~65%	1-3% 轻微	首选，性价比最优
Q4_K_M	~75%	3-5% 中等	显存紧张时使用
Q3_K_M	~80%	5-10% 明显	极度紧张，不推荐
Q2_K	~85%	10-20% 严重	仅测试用

黄金法则：能用 Q5 就用 Q5，宁可跑小模型高量化，不要跑大模型低量化。70B Q2 效果反不如 32B Q5。

第十六章选型决策树

复制代码

你的预算和场景是什么？
│
├─ ¥0（已有电脑）
│  ├─ 有 8GB+ NVIDIA 显卡 → Ollama + Qwen3-8B Q5
│  ├─ 有 16GB Mac → Ollama + Qwen3-8B Q4
│  └─ 都没有独显 → CPU 推理 Qwen3.5-0.8B 体验 / 直接用云端 API
│
├─ ¥4,000-8,000 预算
│  ├─ 全新方案 → RTX 4060 Ti 16GB + Qwen3-14B Q4（编程/问答佳）
│  ├─ 二手方案 → RTX 3060 12GB + Qwen3-8B Q5（入门够用）
│  └─ Mac 方案 → 二手 M1 Pro 16GB MacBook（仅 8B 模型）
│
├─ ¥10,000-18,000 预算 ⭐ 甜点
│  ├─ 追求极限速度 → RTX 4090 二手 + Qwen3.5-32B Q4
│  ├─ 性价比最优 → RTX 3090 二手 + Qwen3.5-32B Q4
│  ├─ Mac 静音方案 → Mac Mini M4 Pro 48GB + Qwen3-32B Q4
│  └─ 70B 入门 → 双 RTX 3090 48GB + DeepSeek-R1-70B Q4
│
├─ ¥25,000-40,000 预算
│  ├─ 消费级最强 → RTX 5090 32GB + Qwen3.5-32B 全精度
│  ├─ 70B 生产级 → 双 RTX 4090 48GB + Qwen3.5-72B Q4
│  └─ Mac 全功能 → Mac Studio M3 Max 128GB + 任意模型
│
└─ 企业级（¥10 万+）
   ├─ 32B 推理服务 → 1×H20 96GB 或 2×A100 80GB
   ├─ 70B 推理服务 → 4×A100 80GB 或 2×H100 SXM
   ├─ 7B-13B 训练 → 2×A100 80GB 或 4×RTX 4090
   └─ 千亿推理 → 8×H200 / 8×H100 SXM

第十七章总结与最佳实践

17.1 四句话选对配置

显存是第一指标：宁选大显存的低端卡（RTX 4060 Ti 16GB），不选小显存的高端卡（RTX 4070 Super 12GB）
24GB 是消费级甜点位：RTX 3090/4090 的 24GB 能覆盖 90% 的本地部署需求
32B 模型是家用天花板：Qwen3.5-32B、DeepSeek-R1-32B 能力接近 GPT-4，24GB 显存恰好装下
2026 年内存基线是 32GB，推荐 64GB------模型加载时系统内存不足会频繁 swap，速度断崖式下跌

17.2 核心数据速记

复制代码

显存估算：参数(B) × 精度字节 × 1.2
推理瓶颈：显存带宽（首看 GB/s）
训练瓶颈：TFLOPS（首看算力）
量化首选：Q5_K_M（性价比最优）
消费甜点：RTX 3090 24GB 二手 ¥6,000
Mac 甜点：M4 Pro 48GB ¥11,999
服务器推理：H20 96GB 国内合规 + 高性价比
服务器训练：H100 SXM + NVSwitch

主流大模型硬件适配对照表（消费级 / 服务器通用）完整教程

第一章 核心认知：大模型硬件选型的底层逻辑

1.1 三个铁律

1.2 2026 年显存与模型速查（一句话版）

第二章 显存计算核心公式（必须掌握）

2.1 推理显存估算

基础公式

简化版（快速心算）

实战速算表

2.2 训练显存估算

2.3 KV Cache 精确估算

第三章 消费级 GPU 全景对比（NVIDIA RTX 系列）

3.1 核心参数一览（2026 年 6 月市场）

3.2 各显卡适配模型速查（INT4 量化）

3.3 消费级显卡推荐路径

第四章 服务器级 GPU 全景对比（A100 / H100 / H200 / L40S 等）

4.1 核心参数一览

4.2 推理性能实测对比（7B FP16 模型）

4.3 服务器级 GPU 选型决策表

4.4 H100 SXM vs H100 PCIe ------ 多卡场景天壤之别

第五章 苹果 Apple Silicon 统一内存方案

5.1 核心逻辑

5.2 苹果芯片核心 AI 参数

5.3 各内存规格适配模型速查

5.4 Mac 各机型实测推理速度（tok/s）

5.5 Mac vs NVIDIA 终极对比

5.6 Mac 选购避雷

第六章 主流大模型 × 硬件适配完整对照表

6.1 2026 年六大主流开源模型硬件需求总表（INT4 Q4_K_M 量化）

6.2 按显存容量反向选模型（消费级）

6.3 按使用场景推荐模型+硬件组合

第七章 训练 vs 推理：硬件需求的核心差异

7.1 总览

7.2 训练显存详细估算

7.3 租赁 GPU 避坑

第八章 多 GPU 并行方案实战

8.1 互联技术对比

8.2 多卡加速比实测

8.3 双卡消费级显卡部署 70B 模型

第九章 各预算档位完整配置方案（2026 年 6 月）

方案 A：零成本入门 ------ 无需独显

方案 B：入门学习型 ------ 预算 ¥4,000-6,000 ⭐

方案 C：进阶主力型 ------ 预算 ¥12,000-18,000 ⭐⭐ 强烈推荐

方案 D：性能发烧型 ------ 预算 ¥25,000-35,000

方案 E：Mac 静音方案

方案 F：企业服务器方案

第十章 云 GPU vs 自建硬件成本对比

10.1 各服务商价格参考（2026 年 6 月）

10.2 自建 vs 租赁盈亏平衡点

第十一章 部署工具与框架硬件适配

11.1 三大工具硬件效率对比

11.2 框架选型决策

第十二章 显存不足时的优化策略

12.1 优先级排序

12.2 GPU Offloading 实战

第十三章 避坑大全

13.1 显卡选购避坑

13.2 Mac 选购避坑

13.3 服务器避坑

第十四章 五个热门实操案例

案例 14.1：¥6,000 打造 AI 编程工作站

案例 14.2：双 3090 跑 70B 模型

案例 14.3：Mac Mini M4 Pro 48GB 打造静音 AI 工作站

案例 14.4：企业级 RAG 知识库方案

案例 14.5：低成本服务器推理方案（H20）

第十五章 FAQ 常见问题

Q1：我只有 8GB 显存的笔记本，能跑大模型吗？

Q2：32B INT4 和 70B INT4 选哪个？

Q3：为什么我的 RTX 4090 跑 32B 模型只有 10 tok/s？

Q4：Mac 和 NVIDIA 哪个更适合本地跑大模型？

Q5：双 GPU 型号不同能一起用吗？

Q6：AMD 显卡能用吗？

Q7：量化模型质量损失到底有多大？

第十六章 选型决策树

第十七章 总结与最佳实践

17.1 四句话选对配置

17.2 核心数据速记

第一章核心认知：大模型硬件选型的底层逻辑

第二章显存计算核心公式（必须掌握）

第三章消费级 GPU 全景对比（NVIDIA RTX 系列）

第四章服务器级 GPU 全景对比（A100 / H100 / H200 / L40S 等）

第五章苹果 Apple Silicon 统一内存方案

第六章主流大模型 × 硬件适配完整对照表

第七章训练 vs 推理：硬件需求的核心差异

第八章多 GPU 并行方案实战

第九章各预算档位完整配置方案（2026 年 6 月）

第十章云 GPU vs 自建硬件成本对比

第十一章部署工具与框架硬件适配

第十二章显存不足时的优化策略

第十三章避坑大全

第十四章五个热门实操案例

第十六章选型决策树

第十七章总结与最佳实践