大模型之后，谁在决定AI的真实速度？

子玥酱 （掘金 / 知乎 / CSDN / 简书同名）

大家好，我是子玥酱，一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂，目前在某国企负责前端软件研发相关工作，主要聚焦于业务型系统的工程化建设与长期维护。

我持续输出和沉淀前端领域的实战经验，日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案，

在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。

技术方向： 前端 / 跨端 / 小程序 / 移动端工程化 内容平台： 掘金、知乎、CSDN、简书 创作特点： 实战导向、源码拆解、少空谈多落地 **文章状态：**长期稳定更新，大量原创输出

我的内容主要围绕 前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读 展开。文章不会停留在"API 怎么用"，而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍，希望能帮你在实际工作中少走弯路。

子玥酱 · 前端成长记录官 ✨

👋 如果你正在做前端，或准备长期走前端这条路

📚 关注我，第一时间获取前端行业趋势与实践总结

🎁 可领取 11 类前端进阶学习资源 （工程化 / 框架 / 跨端 / 面试 / 架构）

💡 一起把技术学"明白"，也用"到位"

持续写作，持续进阶。

愿我们都能在代码和生活里，走得更稳一点 🌱

文章目录

- 引言
- 一、为什么模型越来越强，系统却越来越慢
- 二、真正限制AI速度的，是数据流
- [三、KV Cache 正在成为新的性能瓶颈](#三、KV Cache 正在成为新的性能瓶颈)
- 四、为什么带宽正在取代FLOPS
- 五、长上下文正在重构性能体系
- 六、Agent系统让"速度"拥有了新定义
- [七、AI Runtime 正在成为新的性能核心](#七、AI Runtime 正在成为新的性能核心)
- 八、为什么未来AI越来越像数据中心
- 总结

引言

过去几年，AI 行业最喜欢讨论的话题是什么？答案几乎毫无悬念：

text 复制代码

模型有多大

从：

text 复制代码

GPT-3
↓
GPT-4
↓
GPT-5

到：

text 复制代码

Llama
Claude
Gemini
DeepSeek

整个行业都在关注：

text 复制代码

参数规模
训练数据
推理能力

甚至很多人形成了一种默认认知：

模型越强，AI 就越快。

但当越来越多企业开始真正部署大模型以后，一个有趣的现象出现了。

很多团队发现：

text 复制代码

模型能力足够强

但系统依然：

text 复制代码

响应慢
延迟高
吞吐低
成本贵

问题在哪里？很多时候并不是：

text 复制代码

模型不会推理

而是：

text 复制代码

系统跑不动推理

于是行业开始意识到：

AI 的速度，已经不再只是模型速度。

真正决定用户体验的，越来越是：

text 复制代码

数据流速度
状态流速度
系统调度速度

换句话说，大模型时代之后。AI 的竞争开始从：

text 复制代码

Model Scaling

逐渐进入：

text 复制代码

System Scaling

而决定 AI 真实速度的主角，也正在悄悄发生变化。

一、为什么模型越来越强，系统却越来越慢

很多人第一次接触 AI 推理时都会产生一个错觉：

text 复制代码

推理慢
=
GPU不够

事实上，现代 GPU 的计算能力已经极其夸张。例如：

python 复制代码

import torch
import time

x = torch.randn(
    8192,
    8192
).cuda()

start = time.time()

y = torch.matmul(x, x)

torch.cuda.synchronize()

print(
    time.time() - start
)

一次超大矩阵乘法，往往只需要几十毫秒。但真实生产环境里的请求却可能需要：

text 复制代码

数百毫秒
甚至数秒

为什么？因为大量时间并没有花在：

text 复制代码

Compute

而是花在这些上面：

text 复制代码

Load Data
Move Data
Sync Data

也就是说：

text 复制代码

GPU很快

但：

text 复制代码

数据很慢

于是系统开始进入一种典型状态：

text 复制代码

GPU等待数据

而不是：

text 复制代码

GPU持续计算

这也是现代 AI 系统最常见的问题之一。

二、真正限制AI速度的，是数据流

很多人理解 AI：

text 复制代码

输入
↓
模型
↓
输出

但真实系统其实更像：

text 复制代码

数据读取
↓
数据传输
↓
缓存加载
↓
模型推理
↓
结果返回

模型推理只是其中一步，例如：

python 复制代码

for batch in dataloader:

    output = model(batch)

很多时候真正耗时的是：

python 复制代码

batch = next(dataloader)

因为背后涉及：

text 复制代码

磁盘读取
网络加载
预处理
序列化

如果这些环节慢，GPU 即使空闲也无法工作。于是越来越多基础设施团队开始关注：

text 复制代码

Data Pipeline

而不是：

text 复制代码

Model Pipeline

因为：

AI 的真实速度，本质上是数据流速度。

三、KV Cache 正在成为新的性能瓶颈

过去大家关注：

text 复制代码

模型参数

现在越来越关注：

text 复制代码

KV Cache

原因很简单，现代 Transformer 推理过程中。最昂贵的资源之一已经变成：

text 复制代码

历史状态

例如：

python 复制代码

seq_len = 128000

hidden_size = 4096

layers = 80

memory = (
    seq_len *
    hidden_size *
    layers *
    4
)

print(
    memory /
    1024 /
    1024 /
    1024
)

很快就能达到：

text 复制代码

数十GB

这意味着：

text 复制代码

模型参数

可能已经不是最大开销，真正占据资源的反而是：

text 复制代码

运行时状态

于是系统开始进入状态：

text 复制代码

Memory Bound

而不是状态：

text 复制代码

Compute Bound

四、为什么带宽正在取代FLOPS

过去评价 GPU，大家首先看：

text 复制代码

TFLOPS

因为：

text 复制代码

算力越高
性能越强

但最近几年 GPU 厂商越来越喜欢强调：

text 复制代码

HBM
NVLink
Memory Bandwidth

原因就在于，现代 AI 系统很多时候真正状态是：

text 复制代码

GPU在等数据

而不是：

text 复制代码

GPU在算数据

例如：

text 复制代码

GPU算力提升2倍

并不一定意味着：

text 复制代码

推理速度提升2倍

因为：

text 复制代码

数据搬运速度

可能根本跟不上，于是未来越来越重要的指标开始变成：

text 复制代码

Bandwidth

而不是：

text 复制代码

FLOPS

五、长上下文正在重构性能体系

未来 AI 想实现：

text 复制代码

长期记忆
复杂推理
持续任务

必须拥有：

text 复制代码

超长上下文

但上下文越长，系统越像：

text 复制代码

内存系统

而不是：

text 复制代码

计算系统

因为：

text 复制代码

每个Token

都会产生：

text 复制代码

KV State
Attention State
Runtime State

于是：

text 复制代码

1M Context

最大的挑战不是：

text 复制代码

算不动

而是：

text 复制代码

存不下

未来长上下文竞争，本质上会变成：

text 复制代码

Memory Competition

六、Agent系统让"速度"拥有了新定义

过去的 AI：

text 复制代码

问一次
答一次

速度很好衡量：

text 复制代码

Token/s

即可，但 Agent 不同。例如：

text 复制代码

规划任务
调用工具
执行操作
状态同步
结果验证

整个过程可能持续：

text 复制代码

几分钟
几小时
甚至几天

这时候：

text 复制代码

Token速度

已经不再重要，真正重要的是：

text 复制代码

任务完成速度

而任务完成速度背后依赖的是：

text 复制代码

调度效率
状态效率
资源效率

所以 Agent 时代的性能指标正在发生变化。

七、AI Runtime 正在成为新的性能核心

很多人觉得：

text 复制代码

模型决定能力

但未来越来越可能是：

text 复制代码

Runtime决定体验

因为 Runtime 负责：

text 复制代码

资源调度
状态管理
缓存管理
任务编排

例如：

python 复制代码

class Runtime:

    def schedule(self):

        pass

    def recover(self):

        pass

    def cache(self):

        pass

未来 Runtime 的重要性会越来越像：

text 复制代码

操作系统

因为：

text 复制代码

模型负责思考

而：

text 复制代码

Runtime负责运行

八、为什么未来AI越来越像数据中心

过去很多人认为：

text 复制代码

GPU是AI核心

未来可能变成：

text 复制代码

数据流才是AI核心

因为现代 AI 集群最大的成本往往来自：

text 复制代码

网络通信
状态同步
缓存传输

而不是：

text 复制代码

矩阵计算

于是未来基础设施竞争将围绕以下内容展开：

text 复制代码

Memory
Bandwidth
Runtime
Interconnect

这也是为什么越来越多人认为：

AI 的未来，本质上是一场数据流战争。

总结

过去几年，行业相信：

text 复制代码

更大的模型
=
更快的AI

但现实越来越证明：

text 复制代码

更强模型
≠
更快系统

因为现代 AI 的瓶颈已经从：

text 复制代码

Compute

逐渐转向：

text 复制代码

Memory
Bandwidth
Runtime
State

未来真正决定 AI 真实速度的，可能不再是：

text 复制代码

模型参数

而是：

text 复制代码

数据流速度
状态流速度
系统调度效率

当 AI 开始拥有：

text 复制代码

长上下文
多Agent
持续推理
自治任务

它就越来越不像一个简单的模型，而越来越像一个持续运行的智能系统，所以大模型之后。真正决定 AI 速度的，或许已经不是模型本身。

而是：

谁能够更高效地管理数据、管理状态，并让整个智能系统持续高效运行。