第一章 核心认知:大模型硬件选型的底层逻辑
1.1 三个铁律
铁律一:显存是第一生产力。 显存不够,算力再强也加载不了模型。宁选大显存的低端卡(RTX 4060 Ti 16GB),不选小显存的高端卡(RTX 4070 Super 12GB)------后者根本加载不进去。
铁律二:推理看带宽,训练看算力。 推理是「访存密集」任务,每生成一个 token 都要读取全部模型权重,显存带宽直接决定生成速度上限。训练是「计算密集」任务,TFLOPS 是决定性因素。
铁律三:量化是消费级硬件的救星。 INT4 量化将显存需求压缩到 FP16 的 1/4,代价是 3-5% 的质量损失。对大多数场景,这个代价完全可以接受。
1.2 2026 年显存与模型速查(一句话版)
| 显存 | 能干什么 |
|---|---|
| 4GB | Phi-4-mini、轻量学习体验 |
| 8GB | 7B-9B 模型 INT4,日常问答、写作、简单编程 |
| 16GB | 14B-32B 模型 INT4,企业内用、文档分析、专业编程 |
| 24GB | 32B INT4 舒适,接近 ChatGPT-4 级别能力,消费级甜点 |
| 48GB+ | 70B INT4 及以上,专业应用、复杂推理 |
| 80GB+ | 70B 全精度,千亿参数模型,生产环境高并发 |
第二章 显存计算核心公式(必须掌握)
2.1 推理显存估算
基础公式
显存占用 ≈ 模型参数量(B) × 精度字节数 + KV_Cache + 框架开销
精度字节数对照:
| 精度 | 每参数字节数 | 相对 FP16 |
|---|---|---|
| FP32 | 4 字节 | 2x |
| FP16 / BF16 | 2 字节 | 1x(基准) |
| INT8 | 1 字节 | 0.5x |
| INT4 | 0.5 字节 | 0.25x |
| FP8 | 1 字节 | 0.5x |
简化版(快速心算)
所需显存(GB) ≈ 模型参数量(B) × 量化精度/8 × 1.2
其中 1.2 是 KV Cache 和系统开销的预留系数。
实战速算表
| 模型规模 | FP16 | INT8 | INT4 | FP16(含开销) | INT8(含开销) | INT4(含开销) |
|---|---|---|---|---|---|---|
| 0.5B | 1GB | 0.5GB | 0.25GB | 1.2GB | 0.6GB | 0.3GB |
| 1.5B | 3GB | 1.5GB | 0.75GB | 3.6GB | 1.8GB | 0.9GB |
| 3B | 6GB | 3GB | 1.5GB | 7.2GB | 3.6GB | 1.8GB |
| 4B | 8GB | 4GB | 2GB | 9.6GB | 4.8GB | 2.4GB |
| 7B | 14GB | 7GB | 3.5GB | ≈17GB | ≈10GB | ≈5GB |
| 8B | 16GB | 8GB | 4GB | ≈19GB | ≈12GB | ≈6GB |
| 9B | 18GB | 9GB | 4.5GB | ≈22GB | ≈13GB | ≈7GB |
| 13B | 26GB | 13GB | 6.5GB | ≈31GB | ≈17GB | ≈9GB |
| 14B | 28GB | 14GB | 7GB | ≈34GB | ≈19GB | ≈10GB |
| 27B | 54GB | 27GB | 13.5GB | ≈65GB | ≈35GB | ≈20GB |
| 32B | 64GB | 32GB | 16GB | ≈77GB | ≈42GB | ≈22GB |
| 34B | 68GB | 34GB | 17GB | ≈82GB | ≈44GB | ≈24GB |
| 70B | 140GB | 70GB | 35GB | ≈168GB | ≈88GB | ≈45GB |
| 72B | 144GB | 72GB | 36GB | ≈173GB | ≈90GB | ≈46GB |
| 122B | 244GB | 122GB | 61GB | ≈293GB | ≈150GB | ≈78GB |
| 235B (MoE) | 470GB | 235GB | 117.5GB | ≈565GB | ≈285GB | ≈145GB |
| 400B (MoE) | 800GB | 400GB | 200GB | ≈960GB | ≈490GB | ≈250GB |
| 671B (MoE) | 1342GB | 671GB | 335.5GB | ≈1610GB | ≈820GB | ≈420GB |
MoE 注意:MoE(混合专家)模型的「激活参数」远小于「总参数」。例如 Qwen3-235B-A22B 虽然总参数 235B,但每次推理只激活 22B,实际显存需求约为 235B 权重的存储 + 22B 激活的 KV Cache。
2.2 训练显存估算
训练比推理的显存需求高 3-4 倍,因为还需要存储优化器状态、梯度和中间激活值。
训练显存 ≈ 推理显存 × 3~4(全参数微调)
训练显存 ≈ 推理显存 × 1.5~2(LoRA 微调)
各模型训练显存速查(FP16 全参微调):
| 模型规模 | 推理显存 | 全参微调显存 | LoRA 微调显存 | 推荐 GPU 组合 |
|---|---|---|---|---|
| 7B | ≈17GB | ≈50-70GB | ≈25-35GB | 1×A100 80GB / 2×RTX 4090 |
| 13B | ≈31GB | ≈90-120GB | ≈45-60GB | 2×A100 80GB / 4×RTX 4090 |
| 32B | ≈77GB | ≈230-300GB | ≈100-130GB | 4×A100 80GB / 4×H100 |
| 70B | ≈168GB | ≈500-670GB | ≈220-280GB | 8×A100 80GB / 8×H100 |
| 235B MoE | ≈565GB | ≈1.5-2TB | ≈600-800GB | 16×H100 80GB / 8×H200 |
2.3 KV Cache 精确估算
KV_Cache(GB) ≈ 2 × 层数 × 隐藏维度 × 精度字节数 × 上下文长度 / (1024³)
或简化:KV_Cache ≈ 模型参数 × 0.25 × (上下文长度 / 2048)
| 模型 | 层数 | 隐藏维度 | 4K 上下文 KV Cache | 16K 上下文 KV Cache | 32K 上下文 KV Cache |
|---|---|---|---|---|---|
| Qwen3-8B | 32 | 4096 | ≈0.5GB | ≈1.8GB | ≈3.5GB |
| Qwen3-32B | 64 | 5120 | ≈1.5GB | ≈6.0GB | ≈12GB |
| Llama 3.3 70B | 80 | 8192 | ≈3.8GB | ≈15GB | ≈30GB |
| DeepSeek-V3-lite | --- | --- | ≈1.2GB | ≈5.0GB | ≈10GB |
⚠️ 长上下文场景下,KV Cache 可能比模型权重本身占用更大的显存。
第三章 消费级 GPU 全景对比(NVIDIA RTX 系列)
3.1 核心参数一览(2026 年 6 月市场)
| 型号 | 显存 | 带宽 | 显存类型 | FP16 算力 | 功耗 | 新卡参考价 | 二手参考价 | 评级 |
|---|---|---|---|---|---|---|---|---|
| RTX 3060 12GB | 12GB | 360 GB/s | GDDR6 | 12.7 TFLOPS | 170W | ¥1,900 | ¥900-1,200 | ★★★ 入门首选 |
| RTX 4060 Ti 16GB | 16GB | 288 GB/s | GDDR6 | 22.1 TFLOPS | 165W | ¥3,200 | ¥2,500 | ★★★★ 大显存入门 |
| RTX 4070 Super 12GB | 12GB | 504 GB/s | GDDR6X | 35.5 TFLOPS | 220W | ¥4,800 | ¥3,800 | ★★ 显存太小 |
| RTX 4070 Ti Super | 16GB | 672 GB/s | GDDR6X | 44.1 TFLOPS | 285W | ¥6,500 | ¥5,000 | ★★★★ 中高端甜点 |
| RTX 5060 Ti 16GB | 16GB | 448 GB/s | GDDR7 | 28.4 TFLOPS | 180W | ¥4,599 | --- | ★★★★ 新一代入门 |
| RTX 5070 Ti 16GB | 16GB | 640 GB/s | GDDR7 | 47.3 TFLOPS | 250W | ¥7,500 | --- | ★★★★ 新一代主力 |
| RTX 2080 Ti 22GB(改) | 22GB | 616 GB/s | GDDR6 | 26.9 TFLOPS | 250W | --- | ¥1,800-2,500 | ★★★ 魔改有风险 |
| RTX 3090 24GB | 24GB | 936 GB/s | GDDR6X | 35.6 TFLOPS | 350W | 已停产 | ¥5,500-7,000 | ★★★★★ 性价比之王 |
| RTX 4090 24GB | 24GB | 1,008 GB/s | GDDR6X | 82.6 TFLOPS | 450W | ¥12,000-14,000 | ¥7,000-8,500 | ★★★★★ 全能旗舰 |
| RTX 5090 32GB | 32GB | 1,792 GB/s | GDDR7 | ~104 TFLOPS | 550W | ¥14,000-16,000 | 极少 | ★★★★★ 消费级天花板 |
| RTX 5090D V2 24GB | 24GB | 1,600 GB/s | GDDR7 | ~85 TFLOPS | 500W | ¥19,000 | --- | ★★★★ 国内特供 |
| RTX PRO 6000 96GB | 96GB | 960 GB/s | GDDR7 | ~91 TFLOPS | 300W | ~¥100,000 | --- | ★★★★ 工作站级 |
3.2 各显卡适配模型速查(INT4 量化)
| 显卡 | 显存 | 7B/8B Q4 | 14B Q4 | 27B/32B Q4 | 70B/72B Q3 | 70B/72B Q4 | 推荐用途 |
|---|---|---|---|---|---|---|---|
| RTX 3060 12GB | 12GB | ✅ 流畅 | ✅ 可用 | ❌ | ❌ | ❌ | 学习、日常助手 |
| RTX 4060 Ti 16GB | 16GB | ✅ 流畅 | ✅ 流畅 | ⚠️ 勉强 | ❌ | ❌ | 9B 模型甜点 |
| RTX 4070 Ti S | 16GB | ✅ 流畅 | ✅ 流畅 | ⚠️ 勉强 | ❌ | ❌ | 编程助手 |
| RTX 5060 Ti 16GB | 16GB | ✅ 流畅 | ✅ 流畅 | ⚠️ 勉强 | ❌ | ❌ | 新一代入门 |
| RTX 5070 Ti 16GB | 16GB | ✅ 流畅 | ✅ 流畅 | ⚠️ 勉强 | ❌ | ❌ | 高性能入门 |
| RTX 2080Ti 22G | 22GB | ✅ 流畅 | ✅ 流畅 | ✅ 可用 | ❌ | ❌ | 魔改性价比 |
| RTX 3090 24GB | 24GB | ✅ 流畅 | ✅ 流畅 | ✅ 流畅 | ⚠️ 极勉强 | ❌ | 推荐消费级之选 |
| RTX 4090 24GB | 24GB | ✅ 极快 | ✅ 极快 | ✅ 流畅 | ⚠️ 勉强 | ❌ | 最强消费单卡 |
| RTX 5090 32GB | 32GB | ✅ 极快 | ✅ 极快 | ✅ 全精度 | ⚠️ Q3 | ❌ | 消费级新王 |
| 双 RTX 3090 | 48GB | ✅ 浪费 | ✅ 浪费 | ✅ 全精度 | ✅ Q3 | ✅ Q4 | 70B 最低门槛 |
| RTX PRO 6000 | 96GB | ✅ 浪费 | ✅ 浪费 | ✅ 全精度 | ✅ Q4 | ✅ Q4/Q6 | 单卡 72B 自由 |
图例:✅ 流畅(>15 tok/s)|✅ 可用(8-15 tok/s)|⚠️ 勉强(<8 tok/s / 上下文受限)|❌ 无法加载
3.3 消费级显卡推荐路径
预算 ¥4,000-6,000 → RTX 3060 12GB(二手 ¥1,000)/ RTX 4060 Ti 16GB(新 ¥3,200)
跑 7B-9B INT4,日常问答、写作足够
预算 ¥10,000-15,000 → RTX 3090 24GB(二手 ¥6,000)⭐ 强烈推荐
跑 32B INT4,能力接近 GPT-4,绝大多数人的甜点
预算 ¥20,000-30,000 → RTX 4090 24GB / RTX 5090 32GB
跑 32B 全精度或 70B INT4,消费级最强
预算 ¥30,000-50,000 → 双 RTX 3090 48GB / 双 RTX 4090
跑 70B 量化稳定,专业开发首选
第四章 服务器级 GPU 全景对比(A100 / H100 / H200 / L40S 等)
4.1 核心参数一览
| 型号 | 面向市场 | 显存 | 显存类型 | 显存带宽 | FP16 算力 | TF32 算力 | 功耗 | 多卡互联 | 定位 |
|---|---|---|---|---|---|---|---|---|---|
| A100 40GB | 全球 | 40GB | HBM2e | 2,039 GB/s | 312 TFLOPS | 156 TFLOPS | 400W | NVLink 600GB/s | 入门 AI 卡 |
| A100 80GB | 全球 | 80GB | HBM2e | 2,039 GB/s | 312 TFLOPS | 156 TFLOPS | 500W | NVLink 600GB/s | 上代性价比 |
| A800 80GB | 国内 | 80GB | HBM2e | 2,039 GB/s | 312 TFLOPS | 156 TFLOPS | 500W | NVLink 400GB/s(限) | 国内合规版 |
| H100 PCIe | 全球 | 80GB | HBM3 | 2,000 GB/s | 578 TFLOPS | 289 TFLOPS | 350W | PCIe 仅 32GB/s | 单卡推理,别组多卡 |
| H100 SXM | 全球 | 80GB | HBM3 | 3,350 GB/s | 990 TFLOPS | 495 TFLOPS | 700W | NVSwitch 900GB/s | 当代旗舰,训练最优 |
| H800 SXM | 国内 | 80GB | HBM3 | 3,350 GB/s | 990 TFLOPS | 495 TFLOPS | 700W | NVSwitch 400GB/s(限) | 国内合规版 |
| H200 | 全球 | 141GB | HBM3e | 4,800 GB/s | 990 TFLOPS | 495 TFLOPS | 700W | NVSwitch 900GB/s | 超大显存推理 |
| H20 | 国内特供 | 96GB | HBM3 | 4,000 GB/s | 148 TFLOPS | 74 TFLOPS | ~350W | PCIe | 国内推理性价比 |
| B200 | 全球 | 192GB | HBM3e | 8,000 GB/s | 2,250 TFLOPS | --- | 1,000W | NVSwitch 1,800GB/s | 下一代旗舰 |
| L40S | 全球 | 48GB | GDDR6 | 864 GB/s | ~91 TFLOPS | --- | 300W | PCIe | 轻量推理 |
| L20 | 国内 | 48GB | GDDR6 | ~900 GB/s | ~86 TFLOPS | --- | 275W | PCIe | 国内推理入门 |
4.2 推理性能实测对比(7B FP16 模型)
| GPU | 理论速度上限 | 实测速度 | 单卡可跑最大模型(INT4) | 高并发能力 |
|---|---|---|---|---|
| L40S | ~31 tok/s | ~20 tok/s | 27B(48GB) | 一般 |
| A100 80GB | ~73 tok/s | ~47 tok/s | 32B 全精度 | 优秀 |
| H100 SXM | ~120 tok/s | ~78 tok/s | 32B 全精度 | 极强 |
| H200 | ~170 tok/s | ~110 tok/s | 70B Q4 单卡 | 超强 |
| H20 | ~140 tok/s | ~90 tok/s | 70B Q3 单卡 | 强(推理专用) |
结论 :H100 SXM 推理速度是 L40S 的 3-4 倍,差距主要来自显存带宽而非算力。H20 虽然算力仅为 H100 的 15%,但因其 96GB 大显存 + 4TB/s 高带宽,在推理场景性价比较高。
4.3 服务器级 GPU 选型决策表
| 场景 | 首选 GPU | 次选 | 预算控制 |
|---|---|---|---|
| 7B-13B 推理(高并发) | A100 40GB | L40S 48GB | ¥5-10 万 |
| 32B-70B 推理(单卡) | H200 141GB | H20 96GB | ¥15-30 万 |
| 70B+ 推理(多卡) | 4×A100 80GB | 2×H100 SXM | ¥30-60 万 |
| 千亿参数推理 | 8×H200 | 8×H100 SXM | ¥150-300 万 |
| 7B-13B 微调训练 | A100 80GB | 2×RTX 4090 | ¥8-15 万 |
| 32B-70B 全参训练 | 8×H100 SXM | 8×A100 80GB | ¥80-150 万 |
| 70B LoRA 微调 | 4×A100 80GB | 2×H100 SXM | ¥30-50 万 |
| 预算敏感推理 | H20 96GB | RTX 6000 Ada | ¥10-15 万/卡 |
4.4 H100 SXM vs H100 PCIe ------ 多卡场景天壤之别
| 维度 | H100 SXM | H100 PCIe |
|---|---|---|
| 显存带宽 | 3.35 TB/s | 2.0 TB/s |
| FP16 算力 | 990 TFLOPS | 578 TFLOPS |
| 多卡互联 | NVSwitch 900 GB/s | PCIe 32 GB/s(慢 28 倍!) |
| 功耗 | 700W | 350W |
| 适用场景 | 多卡训练 / 推理 | 单卡推理 |
| 采购检查 | 须确认 SXM + NVSwitch | 不适合多卡 |
⚠️ 踩坑实录:有团队买了 2 张 H100 PCIe 做多卡并行,结果卡间通信只有 32GB/s(SXM 版是 900GB/s),8 卡加速比仅 3.5x 而非预期的 6.5x。
第五章 苹果 Apple Silicon 统一内存方案
5.1 核心逻辑
Mac 走的是「统一内存」路线:CPU 和 GPU 共享同一块内存,没有独立显存。这意味着 Mac 可以跑 NVIDIA 方案完全加载不了的大模型,但推理速度慢于同价位的 NVIDIA 方案。
选 Mac 还是 NVIDIA?一句话:要速度选 NVIDIA,要安静省心选 Mac,要跑超大模型(100B+)选 Mac 大内存版。
5.2 苹果芯片核心 AI 参数
| 芯片 | 内存带宽 | GPU 核心数 | 最大统一内存 | 等效可用显存 | AI 档位 |
|---|---|---|---|---|---|
| M4(基础版) | 120 GB/s | 10 | 32GB | ~24GB | 入门 |
| M4 Pro | 273 GB/s | 20 | 64GB | ~56GB | Pro 级 |
| M4 Max | 410-546 GB/s | 32-40 | 128GB | ~120GB | 专业 |
| M3 Pro | 150 GB/s | 18 | 36GB | ~28GB | 入门 Pro |
| M3 Max | 300-400 GB/s | 30-40 | 128GB | ~120GB | 专业 |
| M3 Ultra | 800 GB/s | 60-80 | 512GB | ~480GB | 旗舰 |
| M2 Ultra | 800 GB/s | 60-76 | 192GB | ~180GB | 上一代旗舰 |
5.3 各内存规格适配模型速查
| 统一内存 | 可跑模型(INT4 Q4_K_M) | 实际可用显存 | 体验 |
|---|---|---|---|
| 8GB | 3B 模型(Llama 3.2 3B、Phi-4 Mini) | ~5GB | 勉强可用,仅学习 |
| 16GB | 7B-8B(Qwen3-8B、Llama 3.1 8B) | ~12GB | 入门甜点,日常体验佳 |
| 24GB | 14B(Qwen3-14B、DeepSeek-R1-14B) | ~20GB | 质的飞跃,性价比甜点 |
| 36-48GB | 32B(Qwen3-32B、DeepSeek-R1-32B) | ~30-42GB | 本地 AI 最佳体验 |
| 64-96GB | 70B(Llama 3.3 70B、Qwen2.5 72B) | ~55-85GB | 云端 API 质量,跑在桌面 |
| 128GB+ | 100B+(Qwen3-235B、DeepSeek-V3) | ~115GB+ | 无限制,想做就做 |
5.4 Mac 各机型实测推理速度(tok/s)
测试条件:Ollama,Q4_K_M 量化,500 tokens 输入生成 200 tokens。
| 设备 | 内存 | 带宽 | 8B 模型 | 14B 模型 | 32B 模型 | 70B 模型 |
|---|---|---|---|---|---|---|
| M4 Mac Mini 16GB | 16GB | 120GB/s | 38 tok/s | ❌ | ❌ | ❌ |
| M4 Pro Mini 48GB | 48GB | 273GB/s | 42 tok/s | 24 tok/s | 11 tok/s | ❌ 内存不够 |
| M3 Max MBP 64GB | 64GB | 300GB/s | 58 tok/s | 33 tok/s | 15 tok/s | 7.5 tok/s |
| M3 Max Studio 128GB | 128GB | 400GB/s | 72 tok/s | 41 tok/s | 19 tok/s | 9.8 tok/s |
| M2 Ultra Studio 192GB | 192GB | 800GB/s | ~95 tok/s | ~55 tok/s | ~26 tok/s | ~14 tok/s |
核心结论:
-
内存带宽 > 芯片代数:M3 Max(400GB/s)跑 LLM 比 M4 Pro(273GB/s)快 30-70%
-
70B 需要 64GB + Max 级带宽作为硬门槛
-
48GB Mac Mini M4 Pro 是本地跑 32B 的最佳性价比(¥11,999)
-
128GB Mac Studio 可直接跑 70B Q4 量化 42GB 权重,而 PC 单卡 24GB 完全无法对标
5.5 Mac vs NVIDIA 终极对比
| 维度 | Mac 方案 | NVIDIA 方案 |
|---|---|---|
| 最大可跑模型 | 100B+(大内存版) | 70B INT4(双卡)/ 32B(单卡) |
| 推理速度(32B) | 12-22 tok/s | 40+ tok/s(4090) |
| 噪音 | 极低 | 中-高(风扇啸叫) |
| 功耗(满载) | 60-100W | 500-1000W |
| 静音 7×24 | ✅ 完美 | ⚠️ 需散热方案 |
| GPU 升级 | 无 | 可更换 |
| 出图(SD/Flux) | 慢 30-50% | 快 |
| 适合人群 | 静音需求、Mac 生态、隐私优先 | 追求速度、可折腾、预算灵活 |
5.6 Mac 选购避雷
-
❌ M3 Pro:带宽从 M2 Pro 的 200GB/s 倒退到 150GB/s,AI 场景不如 M2 Pro
-
❌ 24GB 内存版任何 Mac:2026 年入门 32B 都不够
-
❌ M4 基础版:16GB 只能跑 8B,不划算
-
❌ Intel Mac:不支持 Metal LLM 加速
-
✅ 首选:M4 Pro 48GB Mac Mini(预算 ¥12,000)或 M3 Max 64GB Mac Studio(预算 ¥15,000-20,000)
第六章 主流大模型 × 硬件适配完整对照表
6.1 2026 年六大主流开源模型硬件需求总表(INT4 Q4_K_M 量化)
| 模型 | 参数量 | INT4 权重 | 推荐最低显存 | 推荐单卡 | 推荐多卡 | 实测速度(t/s) |
|---|---|---|---|---|---|---|
| DeepSeek-R1 1.5B | 1.5B | ~1GB | 4GB | 核显即可 | --- | 50+ |
| Qwen3.5-0.8B | 0.8B | ~0.5GB | 无需独显 | CPU+16GB 内存 | --- | 60+ |
| Phi-4 Mini | 3.8B | ~2.5GB | 4GB | RTX 3060 | --- | 25-35 |
| Gemma 3 | 4B | ~3.2GB | 8GB | RTX 3060 | --- | 30-45 |
| Qwen3-8B | 8B | ~5GB | 8GB | RTX 3060 12GB | --- | 40-55(4090) |
| Llama 3.1 8B | 8B | ~4.5GB | 8GB | RTX 3060 12GB | --- | 45-60(4090) |
| DeepSeek-R1-Distill-8B | 8B | ~4.5GB | 8GB | RTX 3060 12GB | --- | 35-50 |
| GLM-Z1-9B | 9B | ~5.5GB | 8GB | RTX 3060 12GB | --- | 45-60(4090) |
| Qwen3-14B | 14B | ~9GB | 12GB | RTX 3060 12GB | --- | 25-40(4090) |
| DeepSeek-R1-Distill-14B | 14B | ~8.5GB | 12GB | RTX 3060 12GB | --- | 20-35 |
| Qwen3-Coder-30B-A3B | 30B MoE | ~2.5GB | 8GB | RTX 3060 | --- | 40-60 |
| DeepSeek-V3-lite | 16B | ~6.8GB | 8GB | RTX 3060 | --- | 25-40 |
| Qwen3-27B | 27B(Dense) | ~18GB | 24GB | RTX 3090/4090 | --- | 20-30(4090) |
| Qwen3.5-32B | 32B | ~18GB | 24GB | RTX 4090 24GB | --- | 25-40(4090) |
| DeepSeek-R1-Distill-32B | 32B | ~19GB | 24GB | RTX 3090/4090 | --- | 15-22 |
| GLM-Z1-32B | 32B | ~18GB | 24GB | RTX 3090/4090 | --- | 20-30 |
| Yi-1.5-34B | 34B | ~20GB | 24GB | RTX 3090/4090 | --- | 15-20 |
| DeepSeek-V3.2 蒸馏32B | 32B | ~20GB | 24GB | RTX 4090 24GB | --- | 20-30 |
| Qwen3.5-72B | 72B | ~42GB | 48GB+ | H20 96GB | 双 3090 48GB | 8-12(双 3090) |
| Llama 3.3 70B | 70B | ~40GB | 48GB+ | H200 141GB | 双 4090 48GB | 8-15(双 4090) |
| DeepSeek-R1-Distill-70B | 70B | ~40GB | 48GB+ | H20 96GB | 双 4090 48GB | 8-14 |
| Qwen3.5-122B | 122B | ~74GB | 80GB+ | A100 80GB | 4×A100 | 5-10 |
| Qwen3-235B-A22B | 235B MoE | ~88GB | 96GB+ | H200 141GB | 4×A100 | 5-10 |
| DeepSeek-V3.2 | 685B MoE | ~340GB(FP8) | 400GB+ | --- | 8×H100 80GB | 15-30 |
| Llama 4 Maverick | 400B MoE | ~200GB(INT4) | 200GB+ | --- | 4×H200 | 10-20 |
说明:实测速度为单卡最大可用显存下的参考数据,实际速度受推理框架、上下文长度、batch size 等因素影响。
6.2 按显存容量反向选模型(消费级)
| 你的显存 | 推荐模型(INT4) | 体验等级 |
|---|---|---|
| 4GB | Phi-4-Mini、Gemma 3 4B | ⭐⭐ 入门体验 |
| 8GB | Qwen3-8B、Llama 3.1 8B、DeepSeek-V3-lite | ⭐⭐⭐ 日常可用 |
| 12GB | Qwen3-14B、DeepSeek-R1-14B | ⭐⭐⭐⭐ 质的提升 |
| 16GB | 14B 全精度、32B 量化(勉强) | ⭐⭐⭐⭐ 足够好用 |
| 24GB | Qwen3.5-32B、DeepSeek-R1-32B | ⭐⭐⭐⭐⭐ 消费级甜点 |
| 32GB | 32B 全精度、MoE 模型 | ⭐⭐⭐⭐⭐ 接近天花板 |
| 48GB+ | 70B-72B INT4 | ⭐⭐⭐⭐⭐ 云端级质量 |
6.3 按使用场景推荐模型+硬件组合
| 使用场景 | 推荐模型 | 推荐硬件 | 预算 |
|---|---|---|---|
| 日常问答 / 写作 | Qwen3-8B Q5 | RTX 3060 12GB / M4 16GB | ¥5,000-8,000 |
| 编程助手 | Qwen3.5-32B Q4 / DeepSeek-V3-16B | RTX 3090 24GB | ¥10,000-15,000 |
| 中文创作 / 翻译 | Qwen3.5-32B Q4 | RTX 4090 24GB / M4 Pro 48GB | ¥12,000-18,000 |
| 数学推理 / 竞赛 | DeepSeek-R1-32B Q4 | RTX 3090 24GB | ¥10,000-15,000 |
| 长文档分析 | Yi-1.5-34B Q4(200K 上下文) | RTX 3090 24GB | ¥10,000-15,000 |
| 知识库 / RAG | Qwen3.5-32B Q4 + BGE-M3 Embedding | RTX 3090 24GB | ¥10,000-15,000 |
| 多模态 / 视觉 | Qwen3-VL-8B | RTX 4060 Ti 16GB | ¥8,000-12,000 |
| 企业级智能客服 | Qwen3.5-72B Q4 | H20 96GB / 双 3090 | ¥15,000-30,000 |
| 超长上下文(10M) | Llama 4 Scout 109B Q2 | RTX 4090 24GB / MAC 128GB | ¥15,000-40,000 |
| 追求高质量输出 | Qwen3.5-72B Q4 | Dual RTX 4090 / M4 Max 128GB | ¥25,000-35,000 |
第七章 训练 vs 推理:硬件需求的核心差异
7.1 总览
| 维度 | 推理(Inference) | 训练/微调(Training/Fine-tuning) |
|---|---|---|
| 瓶颈资源 | 显存带宽(GB/s) | 算力(TFLOPS) + 显存容量 |
| 显存需求倍数 | 1x | 3-4x(全参) / 1.5-2x(LoRA) |
| 对量化精度敏感度 | 低(INT4 可用) | 高(需要 BF16/FP16) |
| 推荐 GPU 类型 | 大显存 + 高带宽 | 高算力 + 大显存 + NVLink |
| 关键特性 | PagedAttention、Flash Attention | Tensor Cores、NVLink 互联 |
| 消费级可行性 | ✅ 完全可行 | ⚠️ 仅小模型(<13B) |
| 量化是否推荐 | ✅ 强烈推荐 INT4/INT8 | ⚠️ 训练用 BF16/FP16,QLoRA 可用 INT4 |
7.2 训练显存详细估算
全参数微调显存 ≈ 模型权重 + 优化器状态(2×权重)+ 梯度(1×权重)+ 激活值
≈ 4× 模型权重(FP16)+ 激活值
LoRA 微调显存 ≈ 模型权重 + LoRA 适配器 + 激活值
≈ 1.2× 模型权重(FP16)+ 激活值
各模型训练所需 GPU 组合:
| 模型 | 全参微调(FP16) | LoRA 微调(FP16) | QLoRA(INT4) |
|---|---|---|---|
| Qwen3-8B | 1×A100 80GB(60GB) | 1×RTX 4090 24GB(22GB) | 1×RTX 3090 24GB(15GB) |
| Qwen3-14B | 2×A100 80GB(110GB) | 1×A100 80GB(40GB) | 1×RTX 4090 24GB(22GB) |
| Qwen3.5-32B | 4×A100 80GB(250GB) | 2×A100 80GB(100GB) | 1×RTX 4090 24GB(24GB) |
| Qwen3.5-72B | 8×A100 80GB(550GB) | 4×A100 80GB(220GB) | 2×RTX 4090 48GB(45GB) |
7.3 租赁 GPU 避坑
| 坑 | 实际情况 | 避坑方案 |
|---|---|---|
| 预估 3 天跑完,实际 5 天 | GPU 租赁「按卡时计费」,含调试空闲时间 | 调试用 T4/V100,正式跑用 A100/H100 |
| 竞价实例便宜但被中断 | 价格低 50-70% 但随时可能被回收 | 配合 Checkpoint 断点续训 |
| 数据加载拖慢训练 | GPU 利用率仅 30%,大部分时间等 I/O | 预加载到内存、用高速 NVMe |
| 8 卡 ≠ 8x 速度 | PCIe 版多卡加速比仅 3.5x | SXM + NVSwitch 可达 6.5x |
第八章 多 GPU 并行方案实战
8.1 互联技术对比
| 技术 | 带宽 | 适用 GPU | 性价比 | 适合 |
|---|---|---|---|---|
| PCIe 4.0 ×16 | 32 GB/s | 所有消费级 GPU | 高 | 数据并行、单卡推理 |
| PCIe 5.0 ×16 | 64 GB/s | RTX 50 系 | 高 | 数据并行 |
| NVLink 3.0 | 600 GB/s | A100 | 中 | 张量并行、多卡推理 |
| NVLink 4.0 | 900 GB/s | H100 SXM | 低 | 大规模训练 |
| NVSwitch | 900 GB/s per link | H100 SXM(全互联) | 最低 | 8 卡训练集群 |
8.2 多卡加速比实测
| 互联方式 | 2 卡 | 4 卡 | 8 卡 |
|---|---|---|---|
| PCIe Gen4 | 1.6x | 2.5x | 3.5x |
| NVLink 4.0 | 1.8x | 3.2x | 5.5x |
| NVSwitch + 优化 | 1.9x | 3.5x | 6.5x |
⚠️ 核心教训 :8 卡通常只能达到 5-6.5 倍加速,不要期望线性增长。优先选单卡能力强的 GPU 比堆卡数更划算。
8.3 双卡消费级显卡部署 70B 模型
# Ollama 双 GPU 配置
# 先设置环境变量
export OLLAMA_NUM_GPU=2
# 拉取 70B 量化模型
ollama pull deepseek-r1:70b-q4_K_M
# 运行
ollama run deepseek-r1:70b-q4_K_M
注意事项:
-
两张卡必须相同型号(如两张 RTX 3090),Ollama 不支持异构多卡
-
如果只有一张 NVIDIA + CPU 共享内存模式,可限制 GPU 层数:
ollama run deepseek-r1:70b --num-gpu-layers 40 -
电源必须够------双 3090 满载功耗 ~700W,建议 1200W 金牌以上电源
第九章 各预算档位完整配置方案(2026 年 6 月)
方案 A:零成本入门 ------ 无需独显
| 硬件 | 推荐型号 | 价格 |
|---|---|---|
| CPU | Intel i3 / 任意双核以上 | 利用现有 |
| 内存 | 16GB DDR4 | 利用现有 |
| 存储 | 256GB SSD | 利用现有 |
| 显卡 | 无需独显(CPU 推理) | ¥0 |
| 可跑模型 | Qwen3.5-0.8B(Q4 不到 1GB) | |
| 推理速度 | 5-10 tok/s | |
| 能做什么 | 体验本地 AI 是什么感觉,简单问答、翻译 | |
| 总预算 | 利用现有硬件 |
💡 建议:如果只是体验,不如直接用云端 API(如 DeepSeek API 免费额度)。
方案 B:入门学习型 ------ 预算 ¥4,000-6,000 ⭐
目标:流畅运行 7B-9B INT4 量化模型
| 配件 | 推荐型号 | 价格 |
|---|---|---|
| CPU | Intel i5-12400F / AMD R5 5600 | ¥600-800 |
| 显卡 | RTX 3060 12GB(二手) 或 RTX 4060 Ti 16GB(新) | ¥1,200 / ¥3,200 |
| 内存 | 32GB DDR4 3200MHz | ¥400 |
| 存储 | 1TB NVMe SSD | ¥400 |
| 主板 | B660M / B550M | ¥500 |
| 电源 | 650W 铜牌 | ¥350 |
| 机箱 | 普通 ATX | ¥200 |
| 合计 | ¥3,650-5,850 |
性能表现:DeepSeek-R1-7B 30-45 tok/s,日常对话流畅,代码补全延迟 < 1 秒。
方案 C:进阶主力型 ------ 预算 ¥12,000-18,000 ⭐⭐ 强烈推荐
目标:流畅运行 14B-32B INT4 量化模型
| 配件 | 推荐型号 | 价格 |
|---|---|---|
| CPU | Intel i7-13700F / AMD R7 7800X3D | ¥1,800-2,500 |
| 显卡 | RTX 3090 24GB(二手) | ¥6,000 |
| 内存 | 64GB DDR5 5600MHz | ¥1,200 |
| 存储 | 2TB NVMe Gen4 SSD | ¥800 |
| 主板 | Z790 / B650 | ¥1,200 |
| 电源 | 1000W 金牌全模组 | ¥800 |
| 散热 | 360 水冷(3090 发热量巨大) | ¥500 |
| 机箱 | 中塔通风机箱 | ¥400 |
| 合计 | ¥12,700-13,400 |
为什么是 3090 而不是 4090? RTX 3090 的 24GB 显存与 4090 相同,LLM 推理场景下显存大小比算力重要得多。3090 的 936 GB/s 带宽跑 32B INT4 绰绰有余,价格只有 4090 的一半。
性能表现:Qwen3.5-32B INT4 约 18-25 tok/s,可同时跑 RAG 知识库 + 对话 Agent。
方案 D:性能发烧型 ------ 预算 ¥25,000-35,000
目标:流畅运行 70B 量化模型或 32B 全精度
| 配件 | 价格 |
|---|---|
| RTX 5090 32GB(单卡) | ¥14,000 |
| 或 双 RTX 3090 24GB(双卡 48GB) | ¥12,000 |
| 其余配件(CPU、内存、主板、电源等) | ¥13,000-15,000 |
| 合计 | ¥25,000-29,000 |
| 方案 | 显存 | 优势 | 劣势 |
|---|---|---|---|
| 单 RTX 5090 32GB | 32GB | 省心、驱动稳、低功耗,32B 全精度跑满 | 价格高 |
| 双 RTX 3090 48GB | 48GB | 便宜,能完整跑 70B INT4(~42GB) | 功耗 700W+,部分模型需手动并行配置 |
性能表现:双 3090 跑 DeepSeek-R1-70B INT4 约 8-12 tok/s,速度不快但能用。单 5090 跑 Qwen3.5-32B 全精度约 35-50 tok/s。
方案 E:Mac 静音方案
| 设备 | 统一内存 | 可跑模型 | 价格 | 推荐度 |
|---|---|---|---|---|
| Mac Mini M4 Pro 48GB | 48GB | 32B 全精度 | ¥11,999 | ⭐⭐⭐⭐⭐ 最佳性价比 |
| Mac Studio M3 Max 64GB | 64GB | 70B INT4 | ¥18,000-20,000 | ⭐⭐⭐⭐ 跑 70B 甜点 |
| Mac Studio M3 Max 128GB | 128GB | 100B+ Q4 | ¥28,000-32,000 | ⭐⭐⭐⭐ 无限制 |
| MacBook Pro M4 Max 48GB | 48GB | 32B 全精度 | ¥25,999 | ⭐⭐⭐⭐ 移动首选 |
方案 F:企业服务器方案
| 目标 | 推荐配置 | 月租(云) | 采购(自建) |
|---|---|---|---|
| 7B-13B 高并发推理 | 1×A100 80GB | ¥8,000-12,000/月 | ¥15-25 万 |
| 32B 推理服务 | 1×H20 96GB 或 2×A100 80GB | ¥5,000-10,000/月 | ¥10-20 万 |
| 70B 推理服务 | 4×A100 80GB 或 2×H100 SXM | ¥25,000-40,000/月 | ¥40-60 万 |
| 千亿参数推理 | 8×H200 | ¥150,000-200,000/月 | ¥200-300 万 |
第十章 云 GPU vs 自建硬件成本对比
10.1 各服务商价格参考(2026 年 6 月)
| 服务商 | 配置 | 价格 | 适合 |
|---|---|---|---|
| AutoDL | RTX 3090 24GB | ¥1,500-2,000/月(按量) | 个人开发者、实验 |
| AutoDL | A100 40GB | ¥4,000-5,000/月(按量) | 中小团队训练 |
| 阿里云 PAI | A100 80GB | ¥8,000-12,000/月 | 企业生产 |
| 腾讯云 GPU | GN10Xp 24GB | ¥6,000-9,000/月 | 企业推理服务 |
| AWS | g4dn.xlarge 16GB | $600-800/月 | 海外业务 |
| AWS | p4d.24xlarge 8×A100 | $32/小时 | 大规模训练 |
10.2 自建 vs 租赁盈亏平衡点
自建成本 ¥15,000(RTX 3090 整机)
÷ AutoDL 租赁 ¥1,800/月
= 8.3 个月回本
如果每天使用超过 4 小时 → 自建更划算
如果偶尔实验/项目驱动 → 租赁更灵活
建议路径:
-
学习/实验阶段:AutoDL 按量付费,先用 T4/V100 调通代码
-
开发/迭代阶段:自建一台 RTX 3090/4090 主力机
-
生产部署阶段:企业云服务(阿里云/腾讯云)+ SLA 保障
第十一章 部署工具与框架硬件适配
11.1 三大工具硬件效率对比
| 工具 | 推理速度(8B INT4, RTX 4090) | 显存效率 | 并发能力 | 适合 |
|---|---|---|---|---|
| Ollama(llama.cpp 后端) | 40-55 tok/s | ⭐⭐⭐ 中等 | ❌ 串行排队 | 个人使用、API 服务 |
| vLLM | 60-80 tok/s | ⭐⭐⭐⭐⭐ 最高 | ✅ 真并发(50-100) | 生产环境高并发 |
| LM Studio | 35-50 tok/s | ⭐⭐ 较高开销 | ❌ 无 API | 非技术人员、GUI |
| MLX-LM (Mac专用) | 45-70 tok/s(Mac) | ⭐⭐⭐⭐ 高 | ❌ 单会话 | Mac 极致速度 |
11.2 框架选型决策
你是开发者吗?
├─ 是 → 需要高并发吗?
│ ├─ 是 → vLLM + Docker + NVIDIA GPU
│ └─ 否 → Ollama(一行命令,OpenAI 兼容 API)
└─ 否 → LM Studio(GUI 操作,点点鼠标)
vLLM 并发实测(Qwen2.5-1.5B,T4 16GB):
| 并发数 | KV Cache 使用量 | Token 总量 |
|---|---|---|
| 1 | 0.254 GB | 1 万 |
| 5 | 1.280 GB | 5 万 |
| 10 | 2.572 GB | 10 万 |
| 11 | 2.821 GB(接近上限) | 11 万 |
结论:vLLM 的 PagedAttention 技术使相同显存下,并发能力比传统推理强约 6 倍。
第十二章 显存不足时的优化策略
12.1 优先级排序
| 优先级 | 策略 | 效果 | 代价 |
|---|---|---|---|
| 1 | 提高量化级别 (FP16 → INT4) | 显存降至 1/4 | 质量降 3-5% |
| 2 | 缩短上下文长度 (32K → 8K) | KV Cache 减少 75% | 长文分析能力下降 |
| 3 | GPU 层数限制 (num-gpu-layers) | 用 CPU 内存补偿 | 速度降至 2-5 tok/s |
| 4 | 换更小的模型 (32B → 14B → 8B) | 显著降低显存 | 能力下降 |
| 5 | 换用 vLLM | 提升 20-30% 显存效率 | 学习成本 |
12.2 GPU Offloading 实战
# Ollama 部分层回退到 CPU 内存
ollama run qwen3.5:32b --num-gpu-layers 20
# 仅前 20 层在 GPU,其余在 CPU 内存
# 显存压力↓,但速度断崖式跌到 2-5 tok/s
# vLLM 限制 GPU 显存使用率
vllm serve /path/to/model --gpu-memory-utilization 0.7
# 仅使用 70% GPU 显存,剩余依赖 CPU swap
第十三章 避坑大全
13.1 显卡选购避坑
| 坑 | 说明 | 避坑方案 |
|---|---|---|
| ❌ RTX 4070 Super 12GB | 显存太小,14B 模型装不下 | 加钱上 3090 24GB 或 4060 Ti 16GB |
| ❌ RTX 4060 8GB | 仅 8GB,只能跑小模型 | 至少选 12GB 版或 Ti 16GB |
| ❌ T4 16GB | 算力 7.5,不支持 BF16/FlashAttention-2 | 宁选 RTX 3060 也不选 T4 |
| ❌ A10 24GB | 推理训练性能差 | 同预算选 RTX 3090 |
| ❌ 魔改 2080Ti 22GB | 脱焊、掉驱动、无保修 | 除非动手能力极强,否则远离 |
| ❌ 矿卡翻新 4090 | BIOS 被刷、寿命未知 | 京东自营 / 官方认证二手 |
| ❌ AMD 显卡 | ROCm 兼容性差,新模型首发用不了 | 老老实实 NVIDIA CUDA 生态 |
| ✅ RTX 3090 二手 | 24GB + 936GB/s,¥6,000 | 性价比之王,注意验 3DMark 压力测试 |
| ✅ RTX 5090 | 32GB GDDR7 消费旗舰 | 预算充足一步到位 |
13.2 Mac 选购避坑
| 避坑 | 原因 |
|---|---|
| ❌ M3 Pro | 带宽从 M2 Pro 200GB/s 倒退到 150GB/s |
| ❌ 24GB 以下统一内存 | 2026 年连 32B Q4 都跑不畅 |
| ❌ M4 基础版 | 16GB 仅够 8B 模型 |
| ❌ Intel Mac | 不支持 Metal LLM 加速 |
| ❌ 闲鱼「美版全新便宜 30%」 | 大概率贴牌翻新或保修失效 |
| ✅ M4 Pro 48GB Mac Mini | ¥11,999,32B 本地 AI 最佳性价比 |
| ✅ M3 Max 64GB Mac Studio | 二手/官翻 ¥15,000-20,000,70B 入门甜点 |
13.3 服务器避坑
| 坑 | 实例 | 解决方案 |
|---|---|---|
| 只算算力不算显存 | 买了 2×A100 40GB(共 80GB)想跑 70B FP16(需 140GB+80GB 开销) | 先算显存需求!公式见第二章 |
| H100 PCIe 还是 SXM 分不清 | PCIe 版多卡通信 32GB/s,SXM 900GB/s | 多卡必选 SXM + NVSwitch |
| 8 卡 ≠ 8x 速度 | PCIe 版 8 卡加速比仅 3.5x | SXM 版可达 6.5x |
| 忽略显存带宽 | L40S(864GB/s)跑 7B 仅 20 tok/s,预期 100 | 推理看带宽,优先选 HBM 系列 |
| 租赁 GPU 预算超支 | 预估 3 天实际 5 天 | 调试用便宜卡,正式跑用高性能卡 |
第十四章 五个热门实操案例
案例 14.1:¥6,000 打造 AI 编程工作站
需求:用 RTX 3090 24GB 搭建本地编程助手,替代 GitHub Copilot
配置:
# 系统:Ubuntu 24.04 + RTX 3090 24GB
# 框架:Ollama
# 1. 部署编程专用模型
ollama pull qwen3.5-coder:32b-q4_K_M
# 2. 配置 VS Code Continue 扩展
# settings.json:
{
"models": [{
"title": "Local Qwen3.5-Coder",
"provider": "ollama",
"model": "qwen3.5-coder:32b-q4_K_M"
}]
}
# 3. Claude Code 接入
export ANTHROPIC_BASE_URL="http://localhost:11434/v1"
export ANTHROPIC_API_KEY="ollama"
claude
效果:32B 模型代码补全延迟 < 2 秒,中等难度 LeetCode 通过率 31%。
案例 14.2:双 3090 跑 70B 模型
需求:在消费级硬件上体验 GPT-4 级别能力
配置:
# 硬件:2× RTX 3090 24GB + 1200W 电源
# 系统:Ubuntu 24.04
# 1. 确保两张卡型号相同
nvidia-smi # 确认两张都是 RTX 3090
# 2. 配置 Ollama 双卡
export OLLAMA_NUM_GPU=2
# 3. 拉取 70B 量化模型
ollama pull deepseek-r1:70b-q4_K_M
# 4. 运行
ollama run deepseek-r1:70b-q4_K_M
效果:Q4_K_M 量化权重约 40GB(每张卡 20GB),推理速度 8-12 tok/s,上下文 8K。速度不快但质量到位。
案例 14.3:Mac Mini M4 Pro 48GB 打造静音 AI 工作站
需求:安静的本地 AI,24×7 运行,不限流
配置:Mac Mini M4 Pro 48GB + 外接 2TB NVMe 雷雳 4 硬盘盒
# 1. 安装 Ollama
brew install ollama
# 2. 模型常驻内存(Agent 场景必开)
OLLAMA_KEEP_ALIVE=1h ollama serve
# 3. 拉取模型
ollama pull qwen3:32b-q4_K_M
ollama pull llama3.1:8b-q4_K_M # 快速模型备用
ollama pull nomic-embed-text # RAG Embedding
# 4. 国内加速
export OLLAMA_REGISTRY="https://hf-mirror.com"
效果:32B 模型 11 tok/s,满载功耗 65W,静音无感,全年电费不到 ¥300(按 ¥0.6/度算)。
案例 14.4:企业级 RAG 知识库方案
需求:搭建企业私有知识库,支持 50 人并发查询
硬件方案:1×A100 80GB + 1TB NVMe SSD
# 架构:vLLM (推理) + LangChain (RAG) + ChromaDB (向量库)
# 1. vLLM 推理服务
vllm serve Qwen/Qwen3.5-32B-Instruct \
--max-model-len16384 \
--gpu-memory-utilization 0.85 \
--tensor-parallel-size 1
# 2. Embedding 模型
# BGE-M3 占用约 2GB,预留显存
# 3. RAG Pipeline
from langchain_community.vectorstores import Chroma
from langchain_huggingface import HuggingFaceEmbeddings
embedding = HuggingFaceEmbeddings(
model_name="BAAI/bge-m3",
model_kwargs={"device": "cuda"}
)
# 4. 链式调用
from langchain.chains import RetrievalQA
qa_chain = RetrievalQA.from_chain_type(
llm=vllm_llm,
retriever=vector_store.as_retriever()
)
硬件需求总结:32B 推理 22GB + Embedding 2GB + 向量库预留 16GB + KV Cache + 并发 = 建议 80GB 显存起步(A100 正好)。
案例 14.5:低成本服务器推理方案(H20)
需求:国内合规、高性价比的 70B 推理服务
GPU:NVIDIA H20 96GB
# H20 核心优势:96GB 大显存 + 4TB/s 高带宽
# 虽然算力仅 148 TFLOPS(H100 的 15%),但推理看带宽
# vLLM 部署 70B INT4
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-72B \
--max-model-len 16384 \
--gpu-memory-utilization 0.9 \
--max-num-seqs 32
效果:70B INT4 单卡 90+ tok/s,支持 32 并发,月功耗约 ¥600。
第十五章 FAQ 常见问题
Q1:我只有 8GB 显存的笔记本,能跑大模型吗?
能,但需接受限制。RTX 4060 8GB 推荐 Ollama + Qwen3-8B Q5(~6.2GB 显存),速度 12-18 tok/s,日常问答和写代码够用。想跑 14B 需要 16GB 显存。如果只有核显,试试 Phi-4-mini。
Q2:32B INT4 和 70B INT4 选哪个?
如果只有 24GB 显存,只能选 32B。32B INT4(Q4_K_M)在 MMLU-Pro 上得分接近 GPT-4o-mini,翻译质量与 GPT-4o 仅差 3 处措辞。70B 需要 48GB+ 显存(双卡或服务器),但在多个任务上有显著质量提升。宁可 32B Q5 也不 70B Q2。
Q3:为什么我的 RTX 4090 跑 32B 模型只有 10 tok/s?
可能是 CUDA 版本问题。实测 CUDA 11.8 下 Qwen3-8B 仅 8 tok/s,升级到 CUDA 12.4+ 速度翻倍至 16 tok/s。32B 模型需确认使用了 Flash Attention 和正确的 GPU 层数。
Q4:Mac 和 NVIDIA 哪个更适合本地跑大模型?
-
要速度(40+ tok/s 跑 32B)→ NVIDIA RTX 4090
-
要安静(0 噪音 24×7)→ Mac Studio
-
要跑超大模型(100B+)→ Mac 128GB 统一内存
-
要出图(Stable Diffusion、Flux)→ NVIDIA 4090
Q5:双 GPU 型号不同能一起用吗?
Ollama 不支持异构多卡,要求两张卡型号完全相同(如两张 RTX 3090)。vLLM 可通过张量并行支持同代同架构的 GPU,但不能 NVIDIA + AMD 混搭。
Q6:AMD 显卡能用吗?
理论上通过 ROCm 框架支持,但实际上:
-
性能打八折(兼容层翻译损耗)
-
新模型首发经常不支持
-
报错可能是底层编译问题,社区答案少
-
结论:2026 年不建议 AMD 显卡跑大模型
Q7:量化模型质量损失到底有多大?
| 量化 | 压缩比 | 质量损失 | 推荐场景 |
|---|---|---|---|
| Q8(8位) | ~50% | <1% 几乎无损 | 显存充足的旗舰卡 |
| Q5_K_M | ~65% | 1-3% 轻微 | 首选,性价比最优 |
| Q4_K_M | ~75% | 3-5% 中等 | 显存紧张时使用 |
| Q3_K_M | ~80% | 5-10% 明显 | 极度紧张,不推荐 |
| Q2_K | ~85% | 10-20% 严重 | 仅测试用 |
黄金法则:能用 Q5 就用 Q5,宁可跑小模型高量化,不要跑大模型低量化。70B Q2 效果反不如 32B Q5。
第十六章 选型决策树
你的预算和场景是什么?
│
├─ ¥0(已有电脑)
│ ├─ 有 8GB+ NVIDIA 显卡 → Ollama + Qwen3-8B Q5
│ ├─ 有 16GB Mac → Ollama + Qwen3-8B Q4
│ └─ 都没有独显 → CPU 推理 Qwen3.5-0.8B 体验 / 直接用云端 API
│
├─ ¥4,000-8,000 预算
│ ├─ 全新方案 → RTX 4060 Ti 16GB + Qwen3-14B Q4(编程/问答佳)
│ ├─ 二手方案 → RTX 3060 12GB + Qwen3-8B Q5(入门够用)
│ └─ Mac 方案 → 二手 M1 Pro 16GB MacBook(仅 8B 模型)
│
├─ ¥10,000-18,000 预算 ⭐ 甜点
│ ├─ 追求极限速度 → RTX 4090 二手 + Qwen3.5-32B Q4
│ ├─ 性价比最优 → RTX 3090 二手 + Qwen3.5-32B Q4
│ ├─ Mac 静音方案 → Mac Mini M4 Pro 48GB + Qwen3-32B Q4
│ └─ 70B 入门 → 双 RTX 3090 48GB + DeepSeek-R1-70B Q4
│
├─ ¥25,000-40,000 预算
│ ├─ 消费级最强 → RTX 5090 32GB + Qwen3.5-32B 全精度
│ ├─ 70B 生产级 → 双 RTX 4090 48GB + Qwen3.5-72B Q4
│ └─ Mac 全功能 → Mac Studio M3 Max 128GB + 任意模型
│
└─ 企业级(¥10 万+)
├─ 32B 推理服务 → 1×H20 96GB 或 2×A100 80GB
├─ 70B 推理服务 → 4×A100 80GB 或 2×H100 SXM
├─ 7B-13B 训练 → 2×A100 80GB 或 4×RTX 4090
└─ 千亿推理 → 8×H200 / 8×H100 SXM
第十七章 总结与最佳实践
17.1 四句话选对配置
-
显存是第一指标:宁选大显存的低端卡(RTX 4060 Ti 16GB),不选小显存的高端卡(RTX 4070 Super 12GB)
-
24GB 是消费级甜点位:RTX 3090/4090 的 24GB 能覆盖 90% 的本地部署需求
-
32B 模型是家用天花板:Qwen3.5-32B、DeepSeek-R1-32B 能力接近 GPT-4,24GB 显存恰好装下
-
2026 年内存基线是 32GB,推荐 64GB------模型加载时系统内存不足会频繁 swap,速度断崖式下跌
17.2 核心数据速记
显存估算:参数(B) × 精度字节 × 1.2
推理瓶颈:显存带宽(首看 GB/s)
训练瓶颈:TFLOPS(首看算力)
量化首选:Q5_K_M(性价比最优)
消费甜点:RTX 3090 24GB 二手 ¥6,000
Mac 甜点:M4 Pro 48GB ¥11,999
服务器推理:H20 96GB 国内合规 + 高性价比
服务器训练:H100 SXM + NVSwitch