探索大语言模型（LLM）：大模型应用与对应的硬件选型一览表

大模型应用与硬件怎么选？看这几张表就够了

不同系列的显卡，适合的人群和做的事不一样，看下面的表就清楚啦。

系列	主要能干啥	适合谁用
RTX	面向普通用户，能打游戏、做图形渲染，也能搞点简单的人工智能学习任务	游戏玩家、AI 初学者
A 系列	性能很强，适合大规模人工智能模型的训练和推理	数据中心、AI 研究团队
A800	是 A 系列专门为中国市场做的，性能稍低，但符合中国市场需求	中国市场搞大模型训练和推理的
H 系列	NVIDIA 的高端显卡，能支持超大模型（像 GPT - 3/4 这种）的训练	超大规 AI 项目、HPC 任务
H800	H 系列专门为中国市场做的，性能稍低，适合中国市场	中国市场搞大模型训练和推理的
L 系列	专业做图形和推理的显卡，适合数据可视化和简单的推理任务	数据分析师、工作站用户
T 系列	入门级显卡，功耗低，适合推理和虚拟化任务	节能型数据中心、云服务

推理就是大模型部署后回答问题的过程，不同大小、精度的模型，对显存和显卡要求不同，看表：

模型尺寸	精度	显存需求（GB）	推荐显卡
7B	FP16	12	RTX 4080 / RTX 4090
7B	INT8	8	RTX 4080 / T4
7B	INT4	6	RTX 4080 / RTX 3060
7B	INT2	4	RTX 3060 / RTX 4080
13B	FP16	24	RTX 4090
13B	INT8	16	RTX 4090
13B	INT4	12	RTX 4090 / RTX 4080
13B	INT2	8	RTX 4080 / RTX 4090
30B	FP16	60	A100 (40GB) * 2
30B	INT8	40	L40 (48GB)
30B	INT4	24	RTX 4090
30B	INT2	16	T4 (16GB)
70B	FP16	120	A100 (80GB) * 2
70B	INT8	80	L40 (48GB) * 2
70B	INT4	48	L40 (48GB)
70B	INT2	32	RTX 4090
110B	FP16	200	H100 (80GB) * 3
110B	INT8	140	H100 (80GB) * 2
110B	INT4	72	A10 (24GB) * 3
110B	INT2	48	A10 (24GB) * 2

训练是让大模型从无到有或变得更好的过程，对硬件要求高，看表：

模型尺寸	精度	显存需求（GB）	推荐硬件配置
7B	AMP	120	A100 (40GB) * 3
7B	FP16	60	A100 (40GB) * 2
13B	AMP	240	A100 (80GB) * 3
13B	FP16	120	A100 (80GB) * 2
30B	AMP	600	H100 (80GB) * 8
30B	FP16	300	H100 (80GB) * 4
70B	AMP	1200	H100 (80GB) * 16
70B	FP16	600	H100 (80GB) * 8
110B	AMP	2000	H100 (80GB) * 25
110B	FP16	900	H100 (80GB) * 12

高效微调是在已有大模型基础上，用少量数据适配特定任务，硬件选择更灵活，看表：

模型尺寸	精度	显存需求（GB）	推荐硬件配置
7B	Freeze (FP16)	20	RTX 4090
7B	LoRA (FP16)	16	RTX 4090
7B	QLoRA (INT8)	10	RTX 4080
7B	QLoRA (INT4)	6	RTX 3060
13B	Freeze (FP16)	40	RTX 4090 / A100 (40GB)
13B	LoRA (FP16)	32	A100 (40GB)
13B	QLoRA (INT8)	20	L40 (48GB)
13B	QLoRA (INT4)	12	RTX 4090
30B	Freeze (FP16)	80	A100 (80GB)
30B	LoRA (FP16)	64	A100 (80GB)
30B	QLoRA (INT8)	40	L40 (48GB)
30B	QLoRA (INT4)	24	RTX 4090
70B	Freeze (FP16)	200	H100 (80GB) * 3
70B	LoRA (FP16)	160	H100 (80GB) * 2
70B	QLoRA (INT8)	80	H100 (80GB)
70B	QLoRA (INT4)	48	L40 (48GB)
110B	Freeze (FP16)	360	H100 (80GB) * 5
110B	LoRA (FP16)	240	H100 (80GB) * 3
110B	QLoRA (INT8)	140	H100 (80GB) * 2
110B	QLoRA (INT4)	72	A10 (24GB) * 3

简单来说，大模型推理要平衡性能和成本，训练要追求高性能，高效微调更灵活。大家可以根据自己的需求，对照上面的表格选硬件～