跑大模型选 A100 还是 H100？租用实测数据说话

选A100还是H100，这不是一道技术题，而是一道成本核算题。H100的FP8算力是A100的3倍以上，显存带宽3.35TB/s对2.0TB/s，但月费也贵了近一倍------智星云A100 80G八卡裸金属28,000元，H100八卡75,000元。这个价差意味着，如果训练时间压缩幅度覆盖不了租金差额，H100就是负资产。
过去8个月我在智星云上交替用这两张卡跑了LLaMA-2 70B、CFD仿真和遥感影像处理，以下是各场景实测数据和选型判断逻辑。

一、算力规格：差距不在纸面上

对比维度	A100 80G SXM	H100 80G SXM5
架构	Ampere	Hopper
显存带宽	2.0 TB/s	3.35 TB/s
FP16算力	312 TFLOPS	~990 TFLOPS
FP8支持	不支持	支持
互联	NVLink 3.0	NVLink 4.0
月费（八卡）	28,000元	75,000元
每TFLOPS月成本	~28元	~24元

H100的每TFLOPS月成本实际更低，但大模型训练很少打满算力峰值。真正拉开差距的技术点在FP8支持------H100的FP8精度下算力直接翻倍，对支持该特性的框架提速明显。NVLink 4.0的450GB/s卡间带宽比NVLink 3.0的300GB/s提升50%，多卡扩展效率更高。

二、训练实测：模型规模和任务类型决定胜负

LLaMA-2 70B全参微调。 同一组超参数，智星云八卡裸金属跑3个epoch。A100单轮迭代约8.2秒，总耗时约51小时。H100开启FP8混合精度训练后单轮迭代压缩至3.1秒，总耗时约19小时，比A100快2.7倍。成本对冲：51小时A100约597元（28,000元÷720小时×51），19小时H100约1,979元（75,000÷720×19）。H100贵3.3倍但只快2.7倍，纯财务账A100更省。
千亿参数MoE模型预训练。 H100的3.35TB/s显存带宽和NVLink 4.0优势全面释放。单轮迭代从5.2秒降到1.7秒，全量预训练时长从约17天缩至不足6天。时间压缩11天，对产品抢占窗口的价值远超硬件租金差价。
生物信息学AlphaFold2推理。 蛋白质结构预测主要瓶颈在单卡显存和浮点吞吐。H100推理速度是A100的1.8倍，但时租价差达到4--6倍。大多数蛋白质预测任务用A100更划算，只有大规模全蛋白质组筛查H100才能收回经济性。
遥感影像语义分割。 高分影像处理，两张卡在Unet/DeeplabV3+这类语义分割任务上的加速比接近于FP16算力比值。但实际训练中数据加载常成为瓶颈，GPU利用率被打不满，H100溢出算力白白闲置。智星云上跑千万像素遥感分割，A100 40G时租2.50元、4090 48G时租2.30元，多数项目完全够用。

三、场景速查：别为用不上的性能采购

任务类型	推荐卡	理由
7B--13B微调	A100 80G / 4090 48G	显存够用，H100帧率溢出
70B全参微调	A100 80G（成本优先）／H100（时间优先）	A省钱H省时
175B+预训练	H100 80G	FP8+带宽优势碾压
CFD仿真（亿级网格）	A100 80G	双精度需求，H100加速有限
生物信息学	A100为主	推理任务H100溢价难回收
视频渲染/虚拟仿真	A100 80G / 4090八卡	多卡并行，成本敏感
元宇宙场景烘焙	A100 80G / 4090 48G	显存敏感型，A100够覆盖

四、实操案例：70B模型选卡的完整账单

某NLP团队微调70B模型，需求是周内完成。两个方案对比：
方案甲：智星云A100 80G八卡裸金属，月费28,000元，训练51小时GPU成本约1,983元。集群存储10T月费2,000元，带宽100M赠送，加配200M月费1,000元，51小时分摊带宽约295元。总计约2,278元。
方案乙：智星云H100八卡，月费75,000元，训练19小时成本约1,979元。带宽加配至300M（H100数据吞吐更大），分摊费用约230元。总计约2,209元。
两个方案最终只差69元，但H100提前32小时交付。这种情况下H100的额外时间价值完全覆盖。如果他们选择与智星云商务长期对接------6个月以上65折------A100月费18,200元，70B模型后续迭代更省钱。

五、避坑清单

先算显存再选卡。 全参微调所需显存≈模型参数量×20 bytes。70B约140GB，单卡H100也放不下，多卡必须NVLink。如果踩坑选了PCIe方案，通信开销可能吞噬一半算力。
FP8不是万能。 很多老模型和框架不支持FP8，租H100等于白付溢价。跑前确认框架版本------PyTorch 2.1+支持FP8，Megatron-LM需特定分支。
带宽误算。 H100算力更高，数据加载速度跟不上会闲置GPU。H100训练建议带宽至少300M。
忘关实例肉疼。 A100 80G时租6元、H100最贵35元，忘关一夜12小时分别烧72元和420元。智星云支持预约关机，养成习惯比事后心疼管用。
测试窗口别省。 时租两天A100跑全流程小规模测试，确认代码、框架、checkpoint保存逻辑无误再上量。几百块测试费比包月后才发现不兼容便宜得多。

六、实用技巧

分阶段用卡：调试用4090时租1.50元/时，正式训练切A100/H100，调试费压到几十块。
保留磁盘+checkpoint：开启实例勾选保留磁盘，checkpoint存集群存储200元/T/月，双重保数据。
带宽按需升降：训练期加配，闲时调回基础值，控制台即时生效。
满减券首单用：智星云注册送500元满减券下单直抵，不是算力券需实际消费，首月4090包月实付526元。
长周期问商务：超6个月直接在平台线上自助或联系商务，A100八卡65折18,200元，能省出再跑一轮的经费是常事。

七、常见问答

Q：70B/13B模型A100够用吗？
A：13B模型全参微调解近24G显存上沿，建议A100 40G起步。70B全参需多卡A100，成本较H100低不少。
Q：H100最适用的任务是什么？
A：千亿级预训练、低延迟推理和显存带宽敏感任务。其他场景H100算力溢出严重。
Q：自动驾驶仿真怎么配？
A：多传感器联合仿真，八卡A100裸金属并行跑多工况，28,000元/月。任务量不饱满可时分租补充。
Q：科研经费不足怎么最大化？
A：A100 80G时租6元配合包月65折，加学术折扣叠加新人满减券，起始成本可控。
选卡逻辑是线性的------先算显存需求，再看多卡是否需要NVLink，最后用实际训练总成本做决策，不是看峰值TFLOPS。多数团队在A100上留足预算就够了，H100攒到真正开不动的时候再上。