甲骨文拿下OpenAI 3000亿美元推理订单,云厂商终结20年降价史。算力世界的重心正在发生历史性偏移------从训练模型转向服务应用。这场变革将如何重塑云架构、硬件生态与定价逻辑?
2026年,一个标志性事件震动了整个云计算行业:甲骨文与OpenAI签署了一份为期5年、总额高达3000亿美元的推理算力订单。与此同时,长期奉行"只降不升"的云计算定价规则被打破,全球主要云厂商掀起了十年来首轮涨价潮。
这两则新闻共同指向一个深层趋势:AI算力的需求重心,正从模型训练(Training)转向实际推理(Inference)。如果说过去两年的主题是"如何训练出更大的模型",那么未来十年的主题将是"如何以更低的成本、更低的延迟、更高的吞吐量服务海量推理请求"。
本文将深入对比推理与训练对计算、内存、网络和延迟的差异化需求,剖析专用推理芯片、近存计算和云原生调度体系的技术演进,并解读定价模式转变背后的供需关系、能源成本与稀缺性经济学。
一、推理 vs. 训练:两套完全不同的算力"食谱"
训练和推理虽然都使用GPU/TPU,但它们对硬件和系统的需求截然不同,如同法餐大厨与快餐连锁店的厨房------一个追求极致精度和创造力,另一个追求速度、稳定性和单位成本。
1.1 计算特性:批量 vs. 单条
训练 :通常是高吞吐、大批量。训练过程中,数据以大批次(large batch)喂入模型,矩阵运算可以充分利用GPU的并行能力。训练任务可以运行数小时甚至数周,对单次前向传播的延迟不敏感,但需要极高的浮点运算总量(FLOPs)。
推理 :以低延迟、小批量或单条请求为主。用户发出一个查询,期望在毫秒级返回。推理请求的到达是随机的、离散的,无法像训练那样提前打包成大批量。这导致GPU的利用率往往不高------因为等待凑够一个大批次会增加延迟。
技术影响 :训练倾向于选择高算力(TFLOPS)的芯片,而推理更看重低延迟 和首个token生成时间(TTFT)。这也催生了专门优化的推理芯片,它们牺牲部分算力峰值来换取更稳定的响应时间。
1.2 内存特性:带宽 vs. 容量
训练 :需要极大的内存容量 来存储模型参数、梯度、优化器状态(例如Adam优化器需要存储一阶和二阶动量)。一个1750亿参数的模型,用FP16训练,仅参数就占用350GB,加上梯度和优化器状态,轻松超过1TB显存。因此训练芯片(如NVIDIA H100)强调高带宽内存 (HBM)的大容量(80GB-144GB每卡)。
推理 :更看重内存带宽 而非容量。推理只需要存储模型参数和KV Cache,不需要梯度。对于生成式任务,内存带宽成为主要瓶颈------因为每生成一个token,需要将整个模型参数从显存读取一次。如果内存带宽是2TB/s,模型大小350GB,那么理论最大生成速度仅为5-6 tokens/s。因此推理芯片极度追求每字节功耗更低 和带宽密度更高。
1.3 网络特性:All-to-All vs. 路由稀疏
训练 :大规模分布式训练需要极高的网络带宽 和极低延迟的通信(例如NVIDIA NVLink和InfiniBand)。梯度同步、All-Reduce操作要求每张卡频繁交换大量数据,网络性能直接决定训练效率。
推理 :分布式推理(如多卡加载一个模型)的通信模式是相对稀疏的。通常只有张量并行(tensor parallel)需要高带宽,而流水线并行(pipeline parallel)和专家并行(expert parallel)对网络要求较低。此外,推理可以通过模型路由将不同请求分发到不同副本,网络压力远小于训练。
1.4 延迟敏感性:天壤之别
训练:以小时或天为单位衡量,几秒钟的延迟无关紧要。
推理:以毫秒为单位。研究表明,如果搜索结果的响应时间增加100毫秒,用户点击率会下降1%;如果AI对话的回复延迟超过2秒,用户流失率显著上升。
总结:训练是"马拉松选手",追求总吞吐量;推理是"百米短跑运动员",追求爆发速度和稳定性。两套需求无法用同一套基础设施完美满足------这正是算力格局变化的根本驱动力。
二、新硬件与新架构:为推理而生的"特长生"
面对推理需求的爆发,产业界不再满足于用训练芯片"降级"跑推理。一批专用推理芯片和新型系统架构正在涌现。
2.1 专用推理芯片:Groq、Cerebras的"反潮流"设计
Groq :其芯片彻底抛弃了HBM,采用SRAM(静态随机存取存储器) 作为片上存储。SRAM速度极快(数十纳秒延迟),但容量小、成本高。Groq的解决方案是将模型参数分布在数百个芯片上,每个芯片只存一小部分,通过高速网络串联。推理时,数据像流水线一样在芯片间传递,不需要频繁从片外DRAM读取。结果:Groq芯片的延迟极低(LLaMA-70B模型可做到200 tokens/s以上),但系统成本和功耗较高。
Cerebras :采用晶圆级集成,将整个晶圆(通常切出数百颗芯片)做成一颗巨大的"芯片"。这颗巨无霸拥有海量的片上SRAM和计算单元,可以完整存储一个中等规模的模型,彻底消除了片外内存访问。优点是内存带宽惊人(数十PB/s),缺点是良率低、价格昂贵。
这两类芯片的共同逻辑是:用近存计算(近数据计算)或存内计算解决内存带宽瓶颈,而不是盲目堆砌TFLOPS。
2.2 近存计算:让数据"少走路"
传统冯·诺依曼架构中,CPU/GPU与内存之间的"存储墙"是主要效率瓶颈。近存计算(Near-Memory Computing)将计算单元放置到内存芯片附近,甚至集成在内存芯片内部。
HBM-PIM(Processing-in-Memory):三星等厂商在HBM堆叠中集成了简单的计算单元,可以在数据"路过"时完成部分矩阵运算,减少数据搬移。对于推理中的全连接层,这种技术能显著降低功耗和延迟。
数字存内计算:使用新型存储介质(如RRAM、MRAM)直接进行模拟域或数字域的矩阵向量乘法,将计算融合在存储阵列中。虽然目前成熟度较低,但被视为推理芯片的终极方案之一。
2.3 云原生推理调度系统:从"独占卡"到"混部"
即便有了专用芯片,如何高效调度海量推理请求也是一门大学问。传统的训练集群中,一个任务独占多张卡运行数天。推理场景则完全不同:请求动态到达,模型大小不一,延迟要求各异。
新型调度系统的关键特性:
- 请求级批处理:动态收集短时间窗口内的请求,组成一个动态批次(dynamic batching),在延迟和吞吐量之间取得平衡。系统需要预测等待时间,决定是否立即处理或"再等几个"。
- 模型分片与自动路由:大模型无法单卡容纳时,自动将其分片到多个设备,并建立路由表,将请求只路由到必要分片(例如MoE模型只激活专家所在设备)。
- 弹性伸缩:根据实时请求量,在几秒钟内启动或关闭推理实例,同时预热的模型副本加速冷启动。
开源案例 :NVIDIA的Triton Inference Server 和vLLM是目前主流的推理调度系统。它们共同的特点是:高度优化的KV Cache管理、PagedAttention等内存节约技术,以及对各种硬件后端的统一抽象。
三、定价模式之变:为什么20年的降价史被打破?
云计算的"黄金法则"曾是:计算、存储、网络带宽的成本会持续下降,因此云厂商每隔一段时间就会降价,以占领市场。但这个持续了近20年的规律在2026年被打破了------AWS、微软Azure、谷歌云等主要厂商陆续上调了部分推理服务的价格。
3.1 供需关系逆转:算力不再是"买方市场"
过去两年,全球AI算力投资疯狂增长,但大部分集中在训练集群。随着AI应用井喷,推理需求以远超预期的速度攀升,而推理专用基础设施的建设需要时间(数据中心审批、芯片制造、部署调优均以季度或年为单位)。短期来看,推理算力供不应求。
甲骨文愿意以3000亿美元锁定OpenAI未来5年的推理容量,本身就是供给紧张的最佳证明------如果市场上随时能买到便宜的推理算力,谁愿意提前5年预付巨款?
3.2 能源成本:算力的"隐形税"
训练和推理都是能耗大户。但训练可以放在电价便宜的地区(如美国德州、中国内蒙),而推理需要就近服务用户,无法完全"追着电费跑"。为了满足低延迟要求,云厂商必须在城市周边部署边缘节点,这些地区电价更高,制冷约束更严。
此外,全球能源价格持续波动,加上各国碳税政策落地,算力的真实成本正在上升。云厂商无法继续靠规模效应完全消化这部分成本。
3.3 "推理作为稀缺资源"的经济学
训练是资本支出密集 (建造集群),但一旦建成,每次训练的边际成本相对固定。推理则是运营支出密集,每个请求都有直接的电费、硬件损耗和运维成本。
在供不应求的阶段,定价权自然向卖方倾斜。而且,推理服务具有时效性和不可存储性------一个用户请求必须在几毫秒内处理,不能等算力便宜了再执行。这种特性使得动态定价(峰谷价差)和优先级定价(加钱买优先响应)成为可能。
新商业模型:
- 预留实例:类似甲骨文与OpenAI的长期合同,用户承诺长期购买量换取折扣。
- 现货推理:利用闲置算力,以低价处理非实时请求(如离线报表生成)。
- 优先级加速:基础级免费但限速,付费用户获得专属通道和更低延迟。
四、中间件的机会:推理调度需要"智能大脑"
从训练到推理的重心转移,不仅影响芯片和云架构,也为中间件层打开了新的空间。
推理场景的复杂性与多样性,恰好是企业中间件的擅长领域。一个典型的推理服务链包括:请求接入 → 模型路由 → 动态批处理 → 硬件适配 → 结果后处理 → 返回。不同环节需要不同的优化策略,而市面上缺乏一个统一的、厂商中立的推理编排平台。
金蝶天燕在传统企业中间件领域(应用服务器、消息中间件、API网关)积累深厚。在AI推理时代,这些能力可以自然延伸为:
- 推理网关:作为统一入口,负责认证、限流、模型路由(根据请求内容或用户等级,将流量分发到不同模型------轻量版或旗舰版、自研或第三方)。
- 推理消息队列:对于异步推理任务(如视频处理、批量文档分析),使用高吞吐消息中间件解耦请求产生和推理消费,平滑流量高峰。
- 可观测性中间件:收集并聚合分布式推理链路的延迟、错误率和成本数据,为调度决策提供实时反馈。
此外,金蝶天燕可以借鉴其企业服务总线(ESB)的设计理念,构建一个"推理服务总线",帮助企业在多云/混合云环境中统一管理异构推理后端(NVIDIA、Groq、Cerebras、甚至国产AI芯片),并实现灰度发布、A/B测试和故障转移。这正好弥补了云厂商锁定和开源工具碎片化之间的空白。
当然,中间件不能替代硬件优化或模型压缩,但它可以在应用与算力之间建立一个灵活的适配层------这正是传统中间件的核心价值,在AI时代依然适用。
五、结论:推理优先的时代刚刚开始
3000亿美元的订单、20年定价规则的终结,这些信号足以让我们确信:AI算力的重心已经从训练转向推理。这不是短期波动,而是一个长达十年甚至更久的结构性转变。
对于架构师而言,这意味着需要重新审视基础设施的选择:推理任务需要的是低延迟、高内存带宽、弹性调度,而非单纯的TFLOPS峰值。专用推理芯片、近存计算和精细化调度系统将成为新的竞争焦点。
对于企业和开发者,推理成本的上升和定价模式的复杂化,要求更精细地权衡质量、延迟与成本。或许,未来每个应用都会有一个"推理预算",如同今天的时间预算和内存预算。
最后,在这个多云、多芯片、多模型的时代,一个统一、高效、可观测的中间件层不再是奢侈品,而是必需品。金蝶天燕们能否抓住这次架构变革的机遇,将在很大程度上决定中国企业在下一代AI基础设施中的竞争力。