算力变天:当AI从“训练狂魔”转向“推理为王”

甲骨文拿下OpenAI 3000亿美元推理订单,云厂商终结20年降价史。算力世界的重心正在发生历史性偏移------从训练模型转向服务应用。这场变革将如何重塑云架构、硬件生态与定价逻辑?

2026年,一个标志性事件震动了整个云计算行业:甲骨文与OpenAI签署了一份为期5年、总额高达3000亿美元的推理算力订单。与此同时,长期奉行"只降不升"的云计算定价规则被打破,全球主要云厂商掀起了十年来首轮涨价潮。

这两则新闻共同指向一个深层趋势:AI算力的需求重心,正从模型训练(Training)转向实际推理(Inference)。如果说过去两年的主题是"如何训练出更大的模型",那么未来十年的主题将是"如何以更低的成本、更低的延迟、更高的吞吐量服务海量推理请求"。

本文将深入对比推理与训练对计算、内存、网络和延迟的差异化需求,剖析专用推理芯片、近存计算和云原生调度体系的技术演进,并解读定价模式转变背后的供需关系、能源成本与稀缺性经济学。


一、推理 vs. 训练:两套完全不同的算力"食谱"

训练和推理虽然都使用GPU/TPU,但它们对硬件和系统的需求截然不同,如同法餐大厨与快餐连锁店的厨房------一个追求极致精度和创造力,另一个追求速度、稳定性和单位成本。

1.1 计算特性:批量 vs. 单条

训练 :通常是高吞吐、大批量。训练过程中,数据以大批次(large batch)喂入模型,矩阵运算可以充分利用GPU的并行能力。训练任务可以运行数小时甚至数周,对单次前向传播的延迟不敏感,但需要极高的浮点运算总量(FLOPs)。

推理 :以低延迟、小批量或单条请求为主。用户发出一个查询,期望在毫秒级返回。推理请求的到达是随机的、离散的,无法像训练那样提前打包成大批量。这导致GPU的利用率往往不高------因为等待凑够一个大批次会增加延迟。

技术影响 :训练倾向于选择高算力(TFLOPS)的芯片,而推理更看重低延迟首个token生成时间(TTFT)。这也催生了专门优化的推理芯片,它们牺牲部分算力峰值来换取更稳定的响应时间。

1.2 内存特性:带宽 vs. 容量

训练 :需要极大的内存容量 来存储模型参数、梯度、优化器状态(例如Adam优化器需要存储一阶和二阶动量)。一个1750亿参数的模型,用FP16训练,仅参数就占用350GB,加上梯度和优化器状态,轻松超过1TB显存。因此训练芯片(如NVIDIA H100)强调高带宽内存 (HBM)的大容量(80GB-144GB每卡)。

推理 :更看重内存带宽 而非容量。推理只需要存储模型参数和KV Cache,不需要梯度。对于生成式任务,内存带宽成为主要瓶颈------因为每生成一个token,需要将整个模型参数从显存读取一次。如果内存带宽是2TB/s,模型大小350GB,那么理论最大生成速度仅为5-6 tokens/s。因此推理芯片极度追求每字节功耗更低带宽密度更高

1.3 网络特性:All-to-All vs. 路由稀疏

训练 :大规模分布式训练需要极高的网络带宽极低延迟的通信(例如NVIDIA NVLink和InfiniBand)。梯度同步、All-Reduce操作要求每张卡频繁交换大量数据,网络性能直接决定训练效率。

推理 :分布式推理(如多卡加载一个模型)的通信模式是相对稀疏的。通常只有张量并行(tensor parallel)需要高带宽,而流水线并行(pipeline parallel)和专家并行(expert parallel)对网络要求较低。此外,推理可以通过模型路由将不同请求分发到不同副本,网络压力远小于训练。

1.4 延迟敏感性:天壤之别

训练:以小时或天为单位衡量,几秒钟的延迟无关紧要。

推理:以毫秒为单位。研究表明,如果搜索结果的响应时间增加100毫秒,用户点击率会下降1%;如果AI对话的回复延迟超过2秒,用户流失率显著上升。

总结:训练是"马拉松选手",追求总吞吐量;推理是"百米短跑运动员",追求爆发速度和稳定性。两套需求无法用同一套基础设施完美满足------这正是算力格局变化的根本驱动力。


二、新硬件与新架构:为推理而生的"特长生"

面对推理需求的爆发,产业界不再满足于用训练芯片"降级"跑推理。一批专用推理芯片和新型系统架构正在涌现。

2.1 专用推理芯片:Groq、Cerebras的"反潮流"设计

Groq :其芯片彻底抛弃了HBM,采用SRAM(静态随机存取存储器) 作为片上存储。SRAM速度极快(数十纳秒延迟),但容量小、成本高。Groq的解决方案是将模型参数分布在数百个芯片上,每个芯片只存一小部分,通过高速网络串联。推理时,数据像流水线一样在芯片间传递,不需要频繁从片外DRAM读取。结果:Groq芯片的延迟极低(LLaMA-70B模型可做到200 tokens/s以上),但系统成本和功耗较高。

Cerebras :采用晶圆级集成,将整个晶圆(通常切出数百颗芯片)做成一颗巨大的"芯片"。这颗巨无霸拥有海量的片上SRAM和计算单元,可以完整存储一个中等规模的模型,彻底消除了片外内存访问。优点是内存带宽惊人(数十PB/s),缺点是良率低、价格昂贵。

这两类芯片的共同逻辑是:用近存计算(近数据计算)或存内计算解决内存带宽瓶颈,而不是盲目堆砌TFLOPS。

2.2 近存计算:让数据"少走路"

传统冯·诺依曼架构中,CPU/GPU与内存之间的"存储墙"是主要效率瓶颈。近存计算(Near-Memory Computing)将计算单元放置到内存芯片附近,甚至集成在内存芯片内部。

HBM-PIM(Processing-in-Memory):三星等厂商在HBM堆叠中集成了简单的计算单元,可以在数据"路过"时完成部分矩阵运算,减少数据搬移。对于推理中的全连接层,这种技术能显著降低功耗和延迟。

数字存内计算:使用新型存储介质(如RRAM、MRAM)直接进行模拟域或数字域的矩阵向量乘法,将计算融合在存储阵列中。虽然目前成熟度较低,但被视为推理芯片的终极方案之一。

2.3 云原生推理调度系统:从"独占卡"到"混部"

即便有了专用芯片,如何高效调度海量推理请求也是一门大学问。传统的训练集群中,一个任务独占多张卡运行数天。推理场景则完全不同:请求动态到达,模型大小不一,延迟要求各异。

新型调度系统的关键特性

  • 请求级批处理:动态收集短时间窗口内的请求,组成一个动态批次(dynamic batching),在延迟和吞吐量之间取得平衡。系统需要预测等待时间,决定是否立即处理或"再等几个"。
  • 模型分片与自动路由:大模型无法单卡容纳时,自动将其分片到多个设备,并建立路由表,将请求只路由到必要分片(例如MoE模型只激活专家所在设备)。
  • 弹性伸缩:根据实时请求量,在几秒钟内启动或关闭推理实例,同时预热的模型副本加速冷启动。

开源案例 :NVIDIA的Triton Inference ServervLLM是目前主流的推理调度系统。它们共同的特点是:高度优化的KV Cache管理、PagedAttention等内存节约技术,以及对各种硬件后端的统一抽象。


三、定价模式之变:为什么20年的降价史被打破?

云计算的"黄金法则"曾是:计算、存储、网络带宽的成本会持续下降,因此云厂商每隔一段时间就会降价,以占领市场。但这个持续了近20年的规律在2026年被打破了------AWS、微软Azure、谷歌云等主要厂商陆续上调了部分推理服务的价格。

3.1 供需关系逆转:算力不再是"买方市场"

过去两年,全球AI算力投资疯狂增长,但大部分集中在训练集群。随着AI应用井喷,推理需求以远超预期的速度攀升,而推理专用基础设施的建设需要时间(数据中心审批、芯片制造、部署调优均以季度或年为单位)。短期来看,推理算力供不应求

甲骨文愿意以3000亿美元锁定OpenAI未来5年的推理容量,本身就是供给紧张的最佳证明------如果市场上随时能买到便宜的推理算力,谁愿意提前5年预付巨款?

3.2 能源成本:算力的"隐形税"

训练和推理都是能耗大户。但训练可以放在电价便宜的地区(如美国德州、中国内蒙),而推理需要就近服务用户,无法完全"追着电费跑"。为了满足低延迟要求,云厂商必须在城市周边部署边缘节点,这些地区电价更高,制冷约束更严。

此外,全球能源价格持续波动,加上各国碳税政策落地,算力的真实成本正在上升。云厂商无法继续靠规模效应完全消化这部分成本。

3.3 "推理作为稀缺资源"的经济学

训练是资本支出密集 (建造集群),但一旦建成,每次训练的边际成本相对固定。推理则是运营支出密集,每个请求都有直接的电费、硬件损耗和运维成本。

在供不应求的阶段,定价权自然向卖方倾斜。而且,推理服务具有时效性和不可存储性------一个用户请求必须在几毫秒内处理,不能等算力便宜了再执行。这种特性使得动态定价(峰谷价差)和优先级定价(加钱买优先响应)成为可能。

新商业模型

  • 预留实例:类似甲骨文与OpenAI的长期合同,用户承诺长期购买量换取折扣。
  • 现货推理:利用闲置算力,以低价处理非实时请求(如离线报表生成)。
  • 优先级加速:基础级免费但限速,付费用户获得专属通道和更低延迟。

四、中间件的机会:推理调度需要"智能大脑"

从训练到推理的重心转移,不仅影响芯片和云架构,也为中间件层打开了新的空间。

推理场景的复杂性与多样性,恰好是企业中间件的擅长领域。一个典型的推理服务链包括:请求接入 → 模型路由 → 动态批处理 → 硬件适配 → 结果后处理 → 返回。不同环节需要不同的优化策略,而市面上缺乏一个统一的、厂商中立的推理编排平台。

金蝶天燕在传统企业中间件领域(应用服务器、消息中间件、API网关)积累深厚。在AI推理时代,这些能力可以自然延伸为:

  • 推理网关:作为统一入口,负责认证、限流、模型路由(根据请求内容或用户等级,将流量分发到不同模型------轻量版或旗舰版、自研或第三方)。
  • 推理消息队列:对于异步推理任务(如视频处理、批量文档分析),使用高吞吐消息中间件解耦请求产生和推理消费,平滑流量高峰。
  • 可观测性中间件:收集并聚合分布式推理链路的延迟、错误率和成本数据,为调度决策提供实时反馈。

此外,金蝶天燕可以借鉴其企业服务总线(ESB)的设计理念,构建一个"推理服务总线",帮助企业在多云/混合云环境中统一管理异构推理后端(NVIDIA、Groq、Cerebras、甚至国产AI芯片),并实现灰度发布、A/B测试和故障转移。这正好弥补了云厂商锁定和开源工具碎片化之间的空白。

当然,中间件不能替代硬件优化或模型压缩,但它可以在应用与算力之间建立一个灵活的适配层------这正是传统中间件的核心价值,在AI时代依然适用。


五、结论:推理优先的时代刚刚开始

3000亿美元的订单、20年定价规则的终结,这些信号足以让我们确信:AI算力的重心已经从训练转向推理。这不是短期波动,而是一个长达十年甚至更久的结构性转变。

对于架构师而言,这意味着需要重新审视基础设施的选择:推理任务需要的是低延迟、高内存带宽、弹性调度,而非单纯的TFLOPS峰值。专用推理芯片、近存计算和精细化调度系统将成为新的竞争焦点。

对于企业和开发者,推理成本的上升和定价模式的复杂化,要求更精细地权衡质量、延迟与成本。或许,未来每个应用都会有一个"推理预算",如同今天的时间预算和内存预算。

最后,在这个多云、多芯片、多模型的时代,一个统一、高效、可观测的中间件层不再是奢侈品,而是必需品。金蝶天燕们能否抓住这次架构变革的机遇,将在很大程度上决定中国企业在下一代AI基础设施中的竞争力。

相关推荐
程序员cxuan1 小时前
Codex 官方:/goal 的正确打开方式
人工智能·后端·程序员
tedcloud1231 小时前
wifi-densepose部署教程:构建无线感知AI实验环境
服务器·人工智能·系统架构·powerpoint·dreamweaver
2601_959477911 小时前
Vatee:从技术架构看平台运行稳定性
大数据·人工智能·安全
穗余1 小时前
hermes agent出现Empty response原因和解决方案
人工智能·web3·区块链
英辰朗迪AI获客1 小时前
AI动态简报之算力基建篇(2026.05.25)
人工智能
o561路6o623o71 小时前
陈,反应时刺激器 无线运动生理 指脉换能器 心音换能器
人工智能
小仙女的小稀罕1 小时前
适合企业行政整理会议录音,总结会议纪要推荐
人工智能
不爱洗脚的小滕1 小时前
【向量数据库】Milvus 稠密与稀疏向量核心解析
数据库·人工智能·milvus
甲维斯1 小时前
MiMo2.5Pro《江湖百晓生》测试过程和结果!
人工智能·ai编程