省流总结:如果模型在24GB以内且预算敏感,RTX 4090仍是性价比之选;如果跑70B大模型、需要32GB显存或追求更高吞吐,RTX 5090是更优解。两者并非简单的"新旧替代"关系,而是不同场景下的分工。
一、先看硬参数:差距不只是8GB显存
| 规格项 | RTX 5090 | RTX 4090 | 差距 |
|---|---|---|---|
| 架构 | Blackwell | Ada Lovelace | 新一代 |
| 显存 | 32GB GDDR7 | 24GB GDDR6X | +33% |
| 显存带宽 | 1,792 GB/s | 1,008 GB/s | +78% |
| CUDA核心 | 21,760 | 16,384 | +33% |
| Tensor Core | 680 (5代) | 512 (4代) | 支持FP4 |
| TDP | 575W | 450W | +28% |
| PCIe | 5.0 | 4.0 | 带宽翻倍 |
很多人把关注点放在"32GB vs 24GB"上,但显存带宽才是推理场景的决定性因素。LLM自回归解码阶段,每生成一个token都需要把整份模型权重从显存读一遍,带宽直接决定token生成速度。5090的1,792 GB/s比4090高出78%,这个优势在批量推理和高并发场景下会被进一步放大。
二、实测数据:不同规模模型的表现差异
以下数据来自社区主流benchmark(Ollama + llama.cpp,Q4_K_M量化):
| 模型 | RTX 5090 | RTX 4090 | 提升幅度 |
|---|---|---|---|
| Llama 3.1 8B Q4 | 142 tok/s | 95 tok/s | +49% |
| Llama 3.1 70B Q4 | 85 tok/s | 52 tok/s | +63% |
| DeepSeek R1 32B Q4 | 95 tok/s | 58 tok/s | +64% |
| Mixtral 8x22B Q4 | 35 tok/s | OOM | 4090无法运行 |
两个关键发现:
第一,70B模型是分水岭。RTX 4090跑70B Q4约需35GB+显存,加上KV Cache和系统开销,24GB显存直接OOM。必须进一步压缩到INT4或AWQ量化,甚至CPU offload,速度和稳定性都会打折扣。而5090的32GB可以原生容纳70B Q4,无需妥协。
第二,5090支持FP4原生推理。Blackwell的第五代Tensor Core新增FP4精度支持,在几乎不损失质量的前提下,显存占用再砍一半。这意味着5090跑70B FP4的显存占用,和4090跑70B INT8差不多,但速度更快。
三、快速验证:租到卡后先看这些指标
拿到实例后,建议先用以下命令确认硬件状态和基准性能:
bash
# 查看GPU型号、显存总量和当前占用
nvidia-smi --query-gpu=name,memory.total,memory.used,power.draw --format=csv
# 实时监控GPU利用率(推理时观察瓶颈在算力还是带宽)
watch -n 1 nvidia-smi
# 快速本地推理压测(需提前下载模型)
./llama-bench -m llama-3.1-8b-instruct-Q4_K_M.gguf -ngl 99 -p 512 -n 128
如果是部署API服务,建议用vLLM做吞吐量测试:
bash
# 启动vLLM服务(以Llama 3.1 8B为例)
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-3.1-8B-Instruct \
--tensor-parallel-size 1 \
--max-model-len 8192
# 压测并发(另开终端)
python benchmark_serving.py \
--dataset-name sharegpt \
--model meta-llama/Llama-3.1-8B-Instruct
四、选型决策树:你的场景该选哪张卡?
plain
开始
│
├─ 模型规模 ≤ 13B 且 预算敏感?
│ └─ 是 → RTX 4090(24GB足够,租赁单价更低)
│ └─ 否 → 继续
│
├─ 需要跑 70B 模型 或 32B+ 长上下文?
│ └─ 是 → RTX 5090(32GB是刚需,4090会OOM)
│ └─ 否 → 继续
│
├─ 高并发API服务 / 批量推理?
│ └─ 是 → RTX 5090(带宽优势在并发下放大)
│ └─ 否 → 继续
│
└─ 个人开发 / 轻量微调 / 学习实验?
└─ RTX 4090 性价比更优
└─ 追求效率且预算充足 → RTX 5090
五、成本视角:租赁单价与隐性成本
从海外主流云平台的公开报价来看,RTX 4090的按需租赁均价约0.39/时,RTX 5090约0.55/时,价差约40%。
但只看时单价会误导决策。举个例子:
-
用4090跑70B模型,因显存不够被迫做INT4量化+CPU offload,实际吞吐可能只有5090的40%,完成同样任务反而耗时更长、总成本更高。
-
用5090跑8B模型,虽然速度快了50%,但如果任务本身只需10分钟,省下的几分钟对总成本影响有限。
立方云平台目前提供RTX 5090 32GB算力租赁,按时单价约2.98元/时(2026年6月价格,具体以平台为准),支持按小时/包月灵活计费。 镜像市场预装PyTorch、vLLM、Ollama等环境,开箱即可跑推理。
六、常见问题
Q1:RTX 4090和5090都不支持NVLink,多卡怎么扩展?
确实,两张卡都不支持NVLink,多卡扩展只能走PCIe。对于70B模型,单卡5090可以独立完成推理;更大模型(如671B MoE)需要多卡时,建议直接上A100/H100集群,它们的NVLink互联才是正经方案。
Q2:5090的575W功耗对租赁成本有影响吗?
有影响,但不大。云平台的电费通常已打包在算力单价里,用户感知不明显。但高功耗意味着散热要求更高,部分平台可能对5090的库存和上架速度更谨慎,导致4090的可用性反而更好。
Q3:FP4量化实际效果怎么样?值得为了它选5090吗?
FP4在Blackwell上是原生硬件支持,不是软件模拟。从社区测试来看,FP4的模型质量损失在可接受范围内(通常<3%),但显存占用比INT4再省约30%。如果你确实需要跑32B-70B模型且显存是瓶颈,FP4是5090的独占优势。
Q4:学生做毕设,两张卡怎么选?
如果毕设模型在7B-13B(如ChatGLM3、Qwen2.5 7B),4090完全够用。如果涉及70B模型微调或需要跑Stable Diffusion XL大分辨率生成,5090的32GB更从容。建议先评估模型规模再决定。
Q5:国内平台为什么很少看到RTX 4090算力租赁?
RTX 4090是消费级显卡,数据中心部署存在功耗、散热和供应链问题。加上5090发布后,不少平台逐步将4090库存转向消费端销售,转而上架5090作为新一代主力。目前立方云等国内平台主要提供RTX 5090、H20、A100等型号。
如需了解立方云当前可用的GPU卡型与计费方式,可前往 lifangyun.com 查看。