算力变天：当AI从“训练狂魔”转向“推理为王”

甲骨文拿下OpenAI 3000亿美元推理订单，云厂商终结20年降价史。算力世界的重心正在发生历史性偏移------从训练模型转向服务应用。这场变革将如何重塑云架构、硬件生态与定价逻辑？

2026年，一个标志性事件震动了整个云计算行业：甲骨文与OpenAI签署了一份为期5年、总额高达3000亿美元的推理算力订单。与此同时，长期奉行"只降不升"的云计算定价规则被打破，全球主要云厂商掀起了十年来首轮涨价潮。

这两则新闻共同指向一个深层趋势：AI算力的需求重心，正从模型训练（Training）转向实际推理（Inference）。如果说过去两年的主题是"如何训练出更大的模型"，那么未来十年的主题将是"如何以更低的成本、更低的延迟、更高的吞吐量服务海量推理请求"。

本文将深入对比推理与训练对计算、内存、网络和延迟的差异化需求，剖析专用推理芯片、近存计算和云原生调度体系的技术演进，并解读定价模式转变背后的供需关系、能源成本与稀缺性经济学。

一、推理 vs. 训练：两套完全不同的算力"食谱"

训练和推理虽然都使用GPU/TPU，但它们对硬件和系统的需求截然不同，如同法餐大厨与快餐连锁店的厨房------一个追求极致精度和创造力，另一个追求速度、稳定性和单位成本。

1.1 计算特性：批量 vs. 单条

训练：通常是高吞吐、大批量。训练过程中，数据以大批次（large batch）喂入模型，矩阵运算可以充分利用GPU的并行能力。训练任务可以运行数小时甚至数周，对单次前向传播的延迟不敏感，但需要极高的浮点运算总量（FLOPs）。

推理：以低延迟、小批量或单条请求为主。用户发出一个查询，期望在毫秒级返回。推理请求的到达是随机的、离散的，无法像训练那样提前打包成大批量。这导致GPU的利用率往往不高------因为等待凑够一个大批次会增加延迟。

技术影响 ：训练倾向于选择高算力（TFLOPS）的芯片，而推理更看重低延迟 和首个token生成时间（TTFT）。这也催生了专门优化的推理芯片，它们牺牲部分算力峰值来换取更稳定的响应时间。

1.2 内存特性：带宽 vs. 容量

训练：需要极大的内存容量 来存储模型参数、梯度、优化器状态（例如Adam优化器需要存储一阶和二阶动量）。一个1750亿参数的模型，用FP16训练，仅参数就占用350GB，加上梯度和优化器状态，轻松超过1TB显存。因此训练芯片（如NVIDIA H100）强调高带宽内存 （HBM）的大容量（80GB-144GB每卡）。

推理：更看重内存带宽 而非容量。推理只需要存储模型参数和KV Cache，不需要梯度。对于生成式任务，内存带宽成为主要瓶颈------因为每生成一个token，需要将整个模型参数从显存读取一次。如果内存带宽是2TB/s，模型大小350GB，那么理论最大生成速度仅为5-6 tokens/s。因此推理芯片极度追求每字节功耗更低 和带宽密度更高。

1.3 网络特性：All-to-All vs. 路由稀疏

训练：大规模分布式训练需要极高的网络带宽 和极低延迟的通信（例如NVIDIA NVLink和InfiniBand）。梯度同步、All-Reduce操作要求每张卡频繁交换大量数据，网络性能直接决定训练效率。

推理：分布式推理（如多卡加载一个模型）的通信模式是相对稀疏的。通常只有张量并行（tensor parallel）需要高带宽，而流水线并行（pipeline parallel）和专家并行（expert parallel）对网络要求较低。此外，推理可以通过模型路由将不同请求分发到不同副本，网络压力远小于训练。

1.4 延迟敏感性：天壤之别

训练：以小时或天为单位衡量，几秒钟的延迟无关紧要。

推理：以毫秒为单位。研究表明，如果搜索结果的响应时间增加100毫秒，用户点击率会下降1%；如果AI对话的回复延迟超过2秒，用户流失率显著上升。

总结：训练是"马拉松选手"，追求总吞吐量；推理是"百米短跑运动员"，追求爆发速度和稳定性。两套需求无法用同一套基础设施完美满足------这正是算力格局变化的根本驱动力。

二、新硬件与新架构：为推理而生的"特长生"

面对推理需求的爆发，产业界不再满足于用训练芯片"降级"跑推理。一批专用推理芯片和新型系统架构正在涌现。

2.1 专用推理芯片：Groq、Cerebras的"反潮流"设计

Groq ：其芯片彻底抛弃了HBM，采用SRAM（静态随机存取存储器） 作为片上存储。SRAM速度极快（数十纳秒延迟），但容量小、成本高。Groq的解决方案是将模型参数分布在数百个芯片上，每个芯片只存一小部分，通过高速网络串联。推理时，数据像流水线一样在芯片间传递，不需要频繁从片外DRAM读取。结果：Groq芯片的延迟极低（LLaMA-70B模型可做到200 tokens/s以上），但系统成本和功耗较高。

Cerebras ：采用晶圆级集成，将整个晶圆（通常切出数百颗芯片）做成一颗巨大的"芯片"。这颗巨无霸拥有海量的片上SRAM和计算单元，可以完整存储一个中等规模的模型，彻底消除了片外内存访问。优点是内存带宽惊人（数十PB/s），缺点是良率低、价格昂贵。

这两类芯片的共同逻辑是：用近存计算（近数据计算）或存内计算解决内存带宽瓶颈，而不是盲目堆砌TFLOPS。

2.2 近存计算：让数据"少走路"

传统冯·诺依曼架构中，CPU/GPU与内存之间的"存储墙"是主要效率瓶颈。近存计算（Near-Memory Computing）将计算单元放置到内存芯片附近，甚至集成在内存芯片内部。

HBM-PIM（Processing-in-Memory）：三星等厂商在HBM堆叠中集成了简单的计算单元，可以在数据"路过"时完成部分矩阵运算，减少数据搬移。对于推理中的全连接层，这种技术能显著降低功耗和延迟。

数字存内计算：使用新型存储介质（如RRAM、MRAM）直接进行模拟域或数字域的矩阵向量乘法，将计算融合在存储阵列中。虽然目前成熟度较低，但被视为推理芯片的终极方案之一。

2.3 云原生推理调度系统：从"独占卡"到"混部"

即便有了专用芯片，如何高效调度海量推理请求也是一门大学问。传统的训练集群中，一个任务独占多张卡运行数天。推理场景则完全不同：请求动态到达，模型大小不一，延迟要求各异。

新型调度系统的关键特性：

请求级批处理：动态收集短时间窗口内的请求，组成一个动态批次（dynamic batching），在延迟和吞吐量之间取得平衡。系统需要预测等待时间，决定是否立即处理或"再等几个"。
模型分片与自动路由：大模型无法单卡容纳时，自动将其分片到多个设备，并建立路由表，将请求只路由到必要分片（例如MoE模型只激活专家所在设备）。
弹性伸缩：根据实时请求量，在几秒钟内启动或关闭推理实例，同时预热的模型副本加速冷启动。

开源案例 ：NVIDIA的Triton Inference Server 和vLLM是目前主流的推理调度系统。它们共同的特点是：高度优化的KV Cache管理、PagedAttention等内存节约技术，以及对各种硬件后端的统一抽象。

三、定价模式之变：为什么20年的降价史被打破？

云计算的"黄金法则"曾是：计算、存储、网络带宽的成本会持续下降，因此云厂商每隔一段时间就会降价，以占领市场。但这个持续了近20年的规律在2026年被打破了------AWS、微软Azure、谷歌云等主要厂商陆续上调了部分推理服务的价格。

3.1 供需关系逆转：算力不再是"买方市场"

过去两年，全球AI算力投资疯狂增长，但大部分集中在训练集群。随着AI应用井喷，推理需求以远超预期的速度攀升，而推理专用基础设施的建设需要时间（数据中心审批、芯片制造、部署调优均以季度或年为单位）。短期来看，推理算力供不应求。

甲骨文愿意以3000亿美元锁定OpenAI未来5年的推理容量，本身就是供给紧张的最佳证明------如果市场上随时能买到便宜的推理算力，谁愿意提前5年预付巨款？

3.2 能源成本：算力的"隐形税"

训练和推理都是能耗大户。但训练可以放在电价便宜的地区（如美国德州、中国内蒙），而推理需要就近服务用户，无法完全"追着电费跑"。为了满足低延迟要求，云厂商必须在城市周边部署边缘节点，这些地区电价更高，制冷约束更严。

此外，全球能源价格持续波动，加上各国碳税政策落地，算力的真实成本正在上升。云厂商无法继续靠规模效应完全消化这部分成本。

3.3 "推理作为稀缺资源"的经济学

训练是资本支出密集 （建造集群），但一旦建成，每次训练的边际成本相对固定。推理则是运营支出密集，每个请求都有直接的电费、硬件损耗和运维成本。

在供不应求的阶段，定价权自然向卖方倾斜。而且，推理服务具有时效性和不可存储性------一个用户请求必须在几毫秒内处理，不能等算力便宜了再执行。这种特性使得动态定价（峰谷价差）和优先级定价（加钱买优先响应）成为可能。

新商业模型：

预留实例：类似甲骨文与OpenAI的长期合同，用户承诺长期购买量换取折扣。
现货推理：利用闲置算力，以低价处理非实时请求（如离线报表生成）。
优先级加速：基础级免费但限速，付费用户获得专属通道和更低延迟。

四、中间件的机会：推理调度需要"智能大脑"

从训练到推理的重心转移，不仅影响芯片和云架构，也为中间件层打开了新的空间。

推理场景的复杂性与多样性，恰好是企业中间件的擅长领域。一个典型的推理服务链包括：请求接入 → 模型路由 → 动态批处理 → 硬件适配 → 结果后处理 → 返回。不同环节需要不同的优化策略，而市面上缺乏一个统一的、厂商中立的推理编排平台。

金蝶天燕在传统企业中间件领域（应用服务器、消息中间件、API网关）积累深厚。在AI推理时代，这些能力可以自然延伸为：

推理网关：作为统一入口，负责认证、限流、模型路由（根据请求内容或用户等级，将流量分发到不同模型------轻量版或旗舰版、自研或第三方）。
推理消息队列：对于异步推理任务（如视频处理、批量文档分析），使用高吞吐消息中间件解耦请求产生和推理消费，平滑流量高峰。
可观测性中间件：收集并聚合分布式推理链路的延迟、错误率和成本数据，为调度决策提供实时反馈。

此外，金蝶天燕可以借鉴其企业服务总线（ESB）的设计理念，构建一个"推理服务总线"，帮助企业在多云/混合云环境中统一管理异构推理后端（NVIDIA、Groq、Cerebras、甚至国产AI芯片），并实现灰度发布、A/B测试和故障转移。这正好弥补了云厂商锁定和开源工具碎片化之间的空白。

当然，中间件不能替代硬件优化或模型压缩，但它可以在应用与算力之间建立一个灵活的适配层------这正是传统中间件的核心价值，在AI时代依然适用。

五、结论：推理优先的时代刚刚开始

3000亿美元的订单、20年定价规则的终结，这些信号足以让我们确信：AI算力的重心已经从训练转向推理。这不是短期波动，而是一个长达十年甚至更久的结构性转变。

对于架构师而言，这意味着需要重新审视基础设施的选择：推理任务需要的是低延迟、高内存带宽、弹性调度，而非单纯的TFLOPS峰值。专用推理芯片、近存计算和精细化调度系统将成为新的竞争焦点。

对于企业和开发者，推理成本的上升和定价模式的复杂化，要求更精细地权衡质量、延迟与成本。或许，未来每个应用都会有一个"推理预算"，如同今天的时间预算和内存预算。

最后，在这个多云、多芯片、多模型的时代，一个统一、高效、可观测的中间件层不再是奢侈品，而是必需品。金蝶天燕们能否抓住这次架构变革的机遇，将在很大程度上决定中国企业在下一代AI基础设施中的竞争力。