大模型应用与硬件怎么选?看这几张表就够了
一、先认识常见的NVIDIA显卡系列
不同系列的显卡,适合的人群和做的事不一样,看下面的表就清楚啦。
系列 | 主要能干啥 | 适合谁用 |
---|---|---|
RTX | 面向普通用户,能打游戏、做图形渲染,也能搞点简单的人工智能学习任务 | 游戏玩家、AI 初学者 |
A 系列 | 性能很强,适合大规模人工智能模型的训练和推理 | 数据中心、AI 研究团队 |
A800 | 是 A 系列专门为中国市场做的,性能稍低,但符合中国市场需求 | 中国市场搞大模型训练和推理的 |
H 系列 | NVIDIA 的高端显卡,能支持超大模型(像 GPT - 3/4 这种)的训练 | 超大规 AI 项目、HPC 任务 |
H800 | H 系列专门为中国市场做的,性能稍低,适合中国市场 | 中国市场搞大模型训练和推理的 |
L 系列 | 专业做图形和推理的显卡,适合数据可视化和简单的推理任务 | 数据分析师、工作站用户 |
T 系列 | 入门级显卡,功耗低,适合推理和虚拟化任务 | 节能型数据中心、云服务 |
二、大模型推理时的硬件选择
推理就是大模型部署后回答问题的过程,不同大小、精度的模型,对显存和显卡要求不同,看表:
模型尺寸 | 精度 | 显存需求(GB) | 推荐显卡 |
---|---|---|---|
7B | FP16 | 12 | RTX 4080 / RTX 4090 |
7B | INT8 | 8 | RTX 4080 / T4 |
7B | INT4 | 6 | RTX 4080 / RTX 3060 |
7B | INT2 | 4 | RTX 3060 / RTX 4080 |
13B | FP16 | 24 | RTX 4090 |
13B | INT8 | 16 | RTX 4090 |
13B | INT4 | 12 | RTX 4090 / RTX 4080 |
13B | INT2 | 8 | RTX 4080 / RTX 4090 |
30B | FP16 | 60 | A100 (40GB) * 2 |
30B | INT8 | 40 | L40 (48GB) |
30B | INT4 | 24 | RTX 4090 |
30B | INT2 | 16 | T4 (16GB) |
70B | FP16 | 120 | A100 (80GB) * 2 |
70B | INT8 | 80 | L40 (48GB) * 2 |
70B | INT4 | 48 | L40 (48GB) |
70B | INT2 | 32 | RTX 4090 |
110B | FP16 | 200 | H100 (80GB) * 3 |
110B | INT8 | 140 | H100 (80GB) * 2 |
110B | INT4 | 72 | A10 (24GB) * 3 |
110B | INT2 | 48 | A10 (24GB) * 2 |
三、大模型训练时的硬件选择
训练是让大模型从无到有或变得更好的过程,对硬件要求高,看表:
模型尺寸 | 精度 | 显存需求(GB) | 推荐硬件配置 |
---|---|---|---|
7B | AMP | 120 | A100 (40GB) * 3 |
7B | FP16 | 60 | A100 (40GB) * 2 |
13B | AMP | 240 | A100 (80GB) * 3 |
13B | FP16 | 120 | A100 (80GB) * 2 |
30B | AMP | 600 | H100 (80GB) * 8 |
30B | FP16 | 300 | H100 (80GB) * 4 |
70B | AMP | 1200 | H100 (80GB) * 16 |
70B | FP16 | 600 | H100 (80GB) * 8 |
110B | AMP | 2000 | H100 (80GB) * 25 |
110B | FP16 | 900 | H100 (80GB) * 12 |
四、大模型高效微调时的硬件选择
高效微调是在已有大模型基础上,用少量数据适配特定任务,硬件选择更灵活,看表:
模型尺寸 | 精度 | 显存需求(GB) | 推荐硬件配置 |
---|---|---|---|
7B | Freeze (FP16) | 20 | RTX 4090 |
7B | LoRA (FP16) | 16 | RTX 4090 |
7B | QLoRA (INT8) | 10 | RTX 4080 |
7B | QLoRA (INT4) | 6 | RTX 3060 |
13B | Freeze (FP16) | 40 | RTX 4090 / A100 (40GB) |
13B | LoRA (FP16) | 32 | A100 (40GB) |
13B | QLoRA (INT8) | 20 | L40 (48GB) |
13B | QLoRA (INT4) | 12 | RTX 4090 |
30B | Freeze (FP16) | 80 | A100 (80GB) |
30B | LoRA (FP16) | 64 | A100 (80GB) |
30B | QLoRA (INT8) | 40 | L40 (48GB) |
30B | QLoRA (INT4) | 24 | RTX 4090 |
70B | Freeze (FP16) | 200 | H100 (80GB) * 3 |
70B | LoRA (FP16) | 160 | H100 (80GB) * 2 |
70B | QLoRA (INT8) | 80 | H100 (80GB) |
70B | QLoRA (INT4) | 48 | L40 (48GB) |
110B | Freeze (FP16) | 360 | H100 (80GB) * 5 |
110B | LoRA (FP16) | 240 | H100 (80GB) * 3 |
110B | QLoRA (INT8) | 140 | H100 (80GB) * 2 |
110B | QLoRA (INT4) | 72 | A10 (24GB) * 3 |
简单来说,大模型推理要平衡性能和成本,训练要追求高性能,高效微调更灵活。大家可以根据自己的需求,对照上面的表格选硬件~