H100去哪儿了？

「H100 是不是突然从所有平台上消失了？」

X 用户 Jino Rohit 发出的这个疑问在社交媒体上迅速扩散，引发了 AI 圈的广泛共鸣。就连曾参与创立 OpenAI、被无数开发者奉为学习标杆的 Andrej Karpathy 也忍不住发声，感叹 H100 的获取难度正在成为人们参与 AI 研究和学习的真实瓶颈。

所以，到底发生了什么？为什么所有人都感觉 H100 的市场供应明显下降了？

事实上，这并不是一时的市场波动，也不是某个平台的运营问题。这是一场正在悄然改变 AI 产业格局的算力危机。而它的核心，远比「芯片不够用」复杂得多。

消失的 H100

如果你在 2026 年初尝试从 AWS、Google Cloud 或 Azure 的标准渠道租用 H100，大概率会碰壁。

SemiAnalysis 在今年 4 月发布的报告用一句话类比了这种荒诞：「找 GPU 算力就像在最后一班飞机起飞前订机票 ------ 价格奇高，座位几乎没有。」

数字可以说明问题的严重程度。

H100 SXM5 的一年期租约合同价格，从 2025 年 10 月的 1.70 美元/小时/GPU 低点，一路飙升至 2026 年 3 月的 2.35 美元/小时/GPU，涨幅接近 40%。

semianalysis.com/gpu-pricing...

与此同时，SiliconData 的 H100 超大规模指数在 4 月底进一步跳涨至 7.49 美元。这是一个反直觉的现象 ------ 明明更强大的下一代 Blackwell 架构芯片已经开始出货，上一代 H100 的价格却不降反升。

www.silicondata.com/products/si...

在直接采购渠道，情况更为严峻。来自 Spheron 的数据显示，H100 SXM5 的交货周期目前普遍在 36 至 52 周之间；H200 更长，超过 40 周；而最新的 B200 的可用产能已被预订至 2027 年下半年。一家 AI 研究机构描述了切身遭遇：原本预算 4 万美元的 Q2 训练任务，在找不到预留算力的情况下，转向按需定价后成本飙升至 8 至 12 万美元 ------ 如果还能找到算力的话。

www.spheron.network/blog/gpu-sh...

数据中心层面同样告急。一份提交给美国证券交易委员会的文件显示，截至 2026 年初，北美数据中心的空置率已降至历史最低的 1.6%，全球 AI 相关支出预计在 2026 年达到 2.52 万亿美元，同比增长 44%。市场上所有计划在 2026 年 8 至 9 月前上线的算力，据报道已被全部预订一空。

www.sec.gov/Archives/ed...

那么，是谁在推高算力需求？

很显然，文章开始处的那条推文与 Karpathy 的感叹并非无的放矢，这也让 AI 的门槛从能力门槛变成了资源门槛。正如 X 网友 Rahul Chavan 调侃的那样：「英伟达悄然成为了整个行业的瓶颈」。

具体来看，将 H100 从市场上「抽走」的，是一批体量远超个人研究者的超级买家。

微软、谷歌、Meta、亚马逊在 2025 年就已相继签下数十亿美元的 Blackwell GPU（GB200、B200）前置订单，将英伟达 2026 年全年乃至 2027 年初的可用产能基本锁定。这种提前布局的能力，直接将中型企业和学术研究者挤出了正规采购渠道。

正如行业分析所指出的，这里存在一个显著的不对称性：超大规模云厂商和资金雄厚的前沿实验室，在危机真正爆发前的一两年里就通过远期合同锁定了供应。而其他所有人，只能竞争那些未被预留的现货和按需算力。

这批算力需求的规模令人震惊。OpenAI 承诺为下一代 AI 基础设施部署至少 10 吉瓦的英伟达系统；Anthropic 计划采用 1 吉瓦的 Grace Blackwell 计算容量；摩根士丹利预测，仅英伟达平台的 AI 服务器机柜需求，就将从 2025 年的约 2.8 万台跃升至 2026 年的至少 6-7 万台，规模翻倍有余。

超大规模算力的竞争，甚至已经从商业层面上升到地缘政治层面，「算力」也似乎正在成为国家竞争的战略资源。

真正的瓶颈：不是 GPU，是内存和封装

理解这场危机，有一个关键认知需要厘清：短缺的核心不是 GPU 芯片本身，而是围绕芯片的内存与封装工艺。

Spheron 的分析一语中的：这是「一个有两个根本原因的结构性问题：台积电的 CoWoS 封装产能已被全部占满，SK 海力士的 HBM 产量无法跟上需求。」

HBM 的生产困境

高带宽内存（HBM）是现代 AI 芯片的核心组件，H100 使用 HBM3，H200 和整个 Blackwell 系列则需要更先进的 HBM3e。全球有能力生产 HBM 的厂商只有三家：SK 海力士、三星和美光，而它们同时要为英伟达、AMD 和英特尔供货，同时又在争夺相同的 HBM 分配量。

HBM3e 的生产比 HBM2e 更为苛刻 ------ 更高的芯片堆叠数量和更严格的公差意味着每片晶圆的良率更低。随着 Blackwell 架构加速量产，对 HBM3e 的需求持续攀升，直接加剧了本已捉襟见肘的 H100/H200 供应。

TrendForce 的研究报告指出，从 2023 年到 2026 年，全球 HBM 总需求增长了约 3.8 倍（从 1.5BGB 到 5.7BGB）。三家供应商都有各自的扩产计划，但新工厂从建设到量产，需要不少时间。

CoWoS 封装：另一道卡脖子工序

台积电的 CoWoS（晶圆上晶片上基板）技术是将 HBM 芯片键合到 GPU 基板的必要工艺。目前，这一封装产能已被预订至至少 2027 年中期 ------ 事实上，部分订单的可见度已延伸至 2028 年。

www.digitimes.com.tw/tech/dt/n/s...

TrendForce 预计台积电 CoWoS 产能将在 2025 年达到每月约 7.5 万片晶圆，并在 2026 年底达到约 12 至 13 万片，但增长速度仍跟不上需求。

CoWoS 是 GPU 产量的瓶颈。当封装产能扩充时，GPU 出货量才能真正提升；而在此之前，即便芯片制造工艺一切正常，也无法解决供应不足的问题。

HBM 短缺的连锁效应

HBM 的供应紧张不仅仅让数据中心 GPU 变得稀缺，还产生了多重连锁反应：

其一，消费级 GPU 生产被大幅削减。据供应链媒体 Benchlife 等来源的报道，英伟达在 2026 年上半年将 RTX 5000 系列（Blackwell 架构）产量削减了 30 至 40%，直接原因是 GDDR7 内存供应紧张，以及公司战略向数据中心 SKU 倾斜。消费级 GPU 市场如今同样干涸。

其二，HBM 的紧缺推高了 GPU 的整体租用成本，即使是手头有库存的云服务提供商，也面临更高的硬件采购成本，并将其传导至租价。这解释了为何 H100 的现货价格没有因为 Blackwell 的出现而崩塌。

其三，AI 对内存的吞噬已经蔓延到了整个芯片产业链。正如机器之心此前报道的，HBM 紧缺的压力正在向普通 DRAM、LPDDR 甚至 CPU 市场传导。参阅《离谱：256G 内存比 RTX5090 还贵，你要为 AI 买单吗？》

谁在受伤？危机对 AI 生态的冲击

算力危机的影响并不均匀分布，它沿着资源能力的梯度，将 AI 生态的参与者划分成了截然不同的处境。

中小型团队：被迫重新规划

按照 Spheron 的分析，算力危机对 AI 团队产生了三个层面的冲击：

训练延误：规划在 2026 年第二季度开展训练的团队，发现超大云平台的预留算力已被现有客户锁定，按需定价的成本高出 2 至 3 倍，且随时可能无法获得算力。
推理成本激增：H100 按需价格的上涨让部分面向用户的 API 服务面临单 token 成本超出盈利临界点的困境，被迫转向更小的模型或更廉价的 GPU------ 这不是架构选择，而是财务必要。
规划周期崩溃：过去企业可以「需要时再购买算力」，如今面对 36 至 52 周的采购周期和提前半年以上预订的云端产能，这种弹性已经不复存在。

学术与独立研究者：门槛正在升高

Karpathy 的担忧触及了一个更深层的问题：当 H100 成为 AI 研究的事实标准，而 H100 又只对巨头开放，那么「参与 AI」这件事的准入门槛是否正在被资本决定？

对于高校实验室、独立研究者和初创团队而言，这是切切实实的现实困境。

应对策略

面对结构性的算力紧缺，产业界正在形成一套应对方法论。

向算力专属云迁移

AWS、Google Cloud、Azure 等通用云平台在算力紧张时优先保障自身 AI 业务和头部企业客户，对中小用户的按需算力供应日趋不稳定。

与此同时，CoreWeave、Lambda、Spheron、Hyperstack 等「新型算力云（Neo-cloud）」正在填补这一空缺。它们专注 GPU 供应，没有内部 AI 业务与用户竞争产能，在库存和可用性上反而有结构性优势。

充分利用 Spot 实例

所谓 Spot 实例，是云平台将暂时闲置、尚未被长期合同预订的 GPU 算力以折扣价对外开放的一种临时租用方式；代价是平台在需要回收资源时可以随时中断你的任务，因此也被称为「可被抢占的实例」。

正因为存在中断风险，Spot 实例的价格远低于稳定的按需实例 ------ 通常低 40% 至 70%。配合自动化检查点技术（每 15 至 30 分钟保存一次模型状态），即便任务被中断也只损失最近一个存档点的进度，可以大幅降低训练成本。

据报道，一支 12 人团队曾借助这一方式，将一个 70B 参数模型的训练成本控制在约 1.12 万美元。

www.spheron.network/blog/spot-g...

模型优化以降低硬件需求

当 GPU 数量难以继续扩张时，减少对 GPU 显存与带宽的依赖成为另一条路径。相比 FP16/BF16，FP8 量化通常可将模型权重内存占用降低约 50%，在推理场景下显著减少 GPU 需求；更激进的 INT4 量化甚至可让部分 13B 模型运行在单块 24GB 消费级 GPU 上。Blackwell 架构则开始支持 MXFP4 等 FP4 微缩放格式，而 NVIDIA 自家的 NVFP4 格式还能进一步降低内存占用与带宽压力。

混合专家（MoE）架构正是凭借「每 token 只激活少量参数」的特性赢得了新一轮青睐。通过激活部分参数，能让计算成本大幅降低。

知识蒸馏则是另一个选择：用大模型生成的输出训练小模型，让 7B 参数的学生模型在特定任务上达到大模型 85 至 95% 的表现，同时将推理时的 GPU 需求降低 10 至 20 倍。

多云编排与故障转移

单一供应商依赖在算力短缺时代是一种危险，因此主动在两至三家算力平台间分配工作负载，并设置自动切换机制，能够在某家平台突发断供时保障业务连续性。

算力短缺并非无解，但需要时间

供给侧：扩张已在路上，但时间表滞后

SK 海力士与美光正在持续扩充 HBM3e 与 HBM4 产能，新增供给预计将在 2026 年逐步爬坡，并于下半年后更明显缓解供应紧张。与此同时，台积电也在持续扩张 CoWoS 先进封装产能，AI GPU 的封装瓶颈有望逐步松动。

不过，NVIDIA 下一代 Rubin 架构虽然仍计划于 2026 年下半年推出，却面临供应链挑战。TrendForce 在 2026 年 4 月的报告中，将 Rubin 在 NVIDIA 高端 GPU 出货中的占比预测从 29% 下调至 22%，原因包括 HBM4 验证周期延长、ConnectX-9 网络升级适配、更高功耗，以及更复杂的液冷系统需求。与此同时，Rubin 平台本身也将消耗大量新增 CoWoS 产能，使先进封装资源短期内仍维持紧张。

相比之下，更成熟的 Blackwell 平台将在短期内继续承担主力供应角色。TrendForce 预计，以 GB300/B300 为代表的 Blackwell 系列，将占 NVIDIA 2026 年高端 GPU 出货量的约 71%。

需求侧：Jevons 悖论正在上演

更令人忧虑的是需求端的逻辑。理论上，模型效率的提升应该减少对算力的需求；现实中，效率提升只会让 AI 工具的应用边界扩大，进而带来更高的总算力消耗。

效率提升不会减少需求，只会加速需求的扩张------这正是工业史上著名的杰文斯悖论（Jevons Paradox）。

从 SemiAnalysis 对 Claude Code 使用量的追踪来看，AI 编程工具的普及正以惊人速度吸收算力：他们预测 Claude Code 将在 2026 年底前占到全球日均代码提交量的 20% 以上。

newsletter.semianalysis.com/p/claude-co...

普通消费者：买单者的时间窗口

对于普通消费者和中小型企业而言，这场算力危机已经通过内存涨价、消费级 GPU 减产、电脑手机配置缩水等方式悄然侵入日常。多家产业研究机构预计，即便供应链持续扩产，HBM 与先进封装等关键资源在未来几年内仍将维持紧张状态；SK 集团董事长崔泰源（Chey Tae-won）也曾警告，AI 基础设施的供需失衡可能持续数年。

如果说有什么确定性，大概是：未来数年，先进算力资源仍将是 AI 行业最关键的瓶颈之一；而对算力、能源与基础设施的争夺，也将持续决定谁能站在 AI 浪潮的前排。

随着下一代 Rubin Ultra 等 AI 系统功耗持续攀升，机柜级供电、散热与液冷系统的重要性和价值量也在快速上升。相比芯片本身，电源、网络、封装与数据中心基础设施，正在成为 AI 军备竞赛中越来越关键的组成部分。

AI 的军备竞赛还远未结束，而芯片只是这场竞赛中最看得见的战场。

参考链接

newsletter.semianalysis.com/p/the-great...

xueqiu.com/9993624771/...

www.spheron.network/blog/gpu-sh...

www.chyxx.com/industry/12...

benchlife.info/nvidia-will...