大模型之后,谁在决定AI的真实速度?


子玥酱 (掘金 / 知乎 / CSDN / 简书 同名)

大家好,我是 子玥酱,一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。

我持续输出和沉淀前端领域的实战经验,日常关注并分享的技术方向包括 前端工程化、小程序、React / RN、Flutter、跨端方案,

在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。

技术方向: 前端 / 跨端 / 小程序 / 移动端工程化 内容平台: 掘金、知乎、CSDN、简书 创作特点: 实战导向、源码拆解、少空谈多落地 **文章状态:**长期稳定更新,大量原创输出

我的内容主要围绕 前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读 展开。文章不会停留在"API 怎么用",而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍,希望能帮你在实际工作中少走弯路。

子玥酱 · 前端成长记录官 ✨

👋 如果你正在做前端,或准备长期走前端这条路

📚 关注我,第一时间获取前端行业趋势与实践总结

🎁 可领取 11 类前端进阶学习资源 (工程化 / 框架 / 跨端 / 面试 / 架构)

💡 一起把技术学"明白",也用"到位"

持续写作,持续进阶。

愿我们都能在代码和生活里,走得更稳一点 🌱

文章目录

引言

过去几年,AI 行业最喜欢讨论的话题是什么?答案几乎毫无悬念:

text 复制代码
模型有多大

从:

text 复制代码
GPT-3
↓
GPT-4
↓
GPT-5

到:

text 复制代码
Llama
Claude
Gemini
DeepSeek

整个行业都在关注:

text 复制代码
参数规模
训练数据
推理能力

甚至很多人形成了一种默认认知:

模型越强,AI 就越快。

但当越来越多企业开始真正部署大模型以后,一个有趣的现象出现了。

很多团队发现:

text 复制代码
模型能力足够强

但系统依然:

text 复制代码
响应慢
延迟高
吞吐低
成本贵

问题在哪里?很多时候并不是:

text 复制代码
模型不会推理

而是:

text 复制代码
系统跑不动推理

于是行业开始意识到:

AI 的速度,已经不再只是模型速度。

真正决定用户体验的,越来越是:

text 复制代码
数据流速度
状态流速度
系统调度速度

换句话说,大模型时代之后。AI 的竞争开始从:

text 复制代码
Model Scaling

逐渐进入:

text 复制代码
System Scaling

而决定 AI 真实速度的主角,也正在悄悄发生变化。

一、为什么模型越来越强,系统却越来越慢

很多人第一次接触 AI 推理时都会产生一个错觉:

text 复制代码
推理慢
=
GPU不够

事实上,现代 GPU 的计算能力已经极其夸张。例如:

python 复制代码
import torch
import time

x = torch.randn(
    8192,
    8192
).cuda()

start = time.time()

y = torch.matmul(x, x)

torch.cuda.synchronize()

print(
    time.time() - start
)

一次超大矩阵乘法,往往只需要几十毫秒。但真实生产环境里的请求却可能需要:

text 复制代码
数百毫秒
甚至数秒

为什么?因为大量时间并没有花在:

text 复制代码
Compute

而是花在这些上面:

text 复制代码
Load Data
Move Data
Sync Data

也就是说:

text 复制代码
GPU很快

但:

text 复制代码
数据很慢

于是系统开始进入一种典型状态:

text 复制代码
GPU等待数据

而不是:

text 复制代码
GPU持续计算

这也是现代 AI 系统最常见的问题之一。

二、真正限制AI速度的,是数据流

很多人理解 AI:

text 复制代码
输入
↓
模型
↓
输出

但真实系统其实更像:

text 复制代码
数据读取
↓
数据传输
↓
缓存加载
↓
模型推理
↓
结果返回

模型推理只是其中一步,例如:

python 复制代码
for batch in dataloader:

    output = model(batch)

很多时候真正耗时的是:

python 复制代码
batch = next(dataloader)

因为背后涉及:

text 复制代码
磁盘读取
网络加载
预处理
序列化

如果这些环节慢,GPU 即使空闲也无法工作。于是越来越多基础设施团队开始关注:

text 复制代码
Data Pipeline

而不是:

text 复制代码
Model Pipeline

因为:

AI 的真实速度,本质上是数据流速度。

三、KV Cache 正在成为新的性能瓶颈

过去大家关注:

text 复制代码
模型参数

现在越来越关注:

text 复制代码
KV Cache

原因很简单,现代 Transformer 推理过程中。最昂贵的资源之一已经变成:

text 复制代码
历史状态

例如:

python 复制代码
seq_len = 128000

hidden_size = 4096

layers = 80

memory = (
    seq_len *
    hidden_size *
    layers *
    4
)

print(
    memory /
    1024 /
    1024 /
    1024
)

很快就能达到:

text 复制代码
数十GB

这意味着:

text 复制代码
模型参数

可能已经不是最大开销,真正占据资源的反而是:

text 复制代码
运行时状态

于是系统开始进入状态:

text 复制代码
Memory Bound

而不是状态:

text 复制代码
Compute Bound

四、为什么带宽正在取代FLOPS

过去评价 GPU,大家首先看:

text 复制代码
TFLOPS

因为:

text 复制代码
算力越高
性能越强

但最近几年 GPU 厂商越来越喜欢强调:

text 复制代码
HBM
NVLink
Memory Bandwidth

原因就在于,现代 AI 系统很多时候真正状态是:

text 复制代码
GPU在等数据

而不是:

text 复制代码
GPU在算数据

例如:

text 复制代码
GPU算力提升2倍

并不一定意味着:

text 复制代码
推理速度提升2倍

因为:

text 复制代码
数据搬运速度

可能根本跟不上,于是未来越来越重要的指标开始变成:

text 复制代码
Bandwidth

而不是:

text 复制代码
FLOPS

五、长上下文正在重构性能体系

未来 AI 想实现:

text 复制代码
长期记忆
复杂推理
持续任务

必须拥有:

text 复制代码
超长上下文

但上下文越长,系统越像:

text 复制代码
内存系统

而不是:

text 复制代码
计算系统

因为:

text 复制代码
每个Token

都会产生:

text 复制代码
KV State
Attention State
Runtime State

于是:

text 复制代码
1M Context

最大的挑战不是:

text 复制代码
算不动

而是:

text 复制代码
存不下

未来长上下文竞争,本质上会变成:

text 复制代码
Memory Competition

六、Agent系统让"速度"拥有了新定义

过去的 AI:

text 复制代码
问一次
答一次

速度很好衡量:

text 复制代码
Token/s

即可,但 Agent 不同。例如:

text 复制代码
规划任务
调用工具
执行操作
状态同步
结果验证

整个过程可能持续:

text 复制代码
几分钟
几小时
甚至几天

这时候:

text 复制代码
Token速度

已经不再重要,真正重要的是:

text 复制代码
任务完成速度

而任务完成速度背后依赖的是:

text 复制代码
调度效率
状态效率
资源效率

所以 Agent 时代的性能指标正在发生变化。

七、AI Runtime 正在成为新的性能核心

很多人觉得:

text 复制代码
模型决定能力

但未来越来越可能是:

text 复制代码
Runtime决定体验

因为 Runtime 负责:

text 复制代码
资源调度
状态管理
缓存管理
任务编排

例如:

python 复制代码
class Runtime:

    def schedule(self):

        pass

    def recover(self):

        pass

    def cache(self):

        pass

未来 Runtime 的重要性会越来越像:

text 复制代码
操作系统

因为:

text 复制代码
模型负责思考

而:

text 复制代码
Runtime负责运行

八、为什么未来AI越来越像数据中心

过去很多人认为:

text 复制代码
GPU是AI核心

未来可能变成:

text 复制代码
数据流才是AI核心

因为现代 AI 集群最大的成本往往来自:

text 复制代码
网络通信
状态同步
缓存传输

而不是:

text 复制代码
矩阵计算

于是未来基础设施竞争将围绕以下内容展开:

text 复制代码
Memory
Bandwidth
Runtime
Interconnect

这也是为什么越来越多人认为:

AI 的未来,本质上是一场数据流战争。

总结

过去几年,行业相信:

text 复制代码
更大的模型
=
更快的AI

但现实越来越证明:

text 复制代码
更强模型
≠
更快系统

因为现代 AI 的瓶颈已经从:

text 复制代码
Compute

逐渐转向:

text 复制代码
Memory
Bandwidth
Runtime
State

未来真正决定 AI 真实速度的,可能不再是:

text 复制代码
模型参数

而是:

text 复制代码
数据流速度
状态流速度
系统调度效率

当 AI 开始拥有:

text 复制代码
长上下文
多Agent
持续推理
自治任务

它就越来越不像一个简单的模型,而越来越像一个持续运行的智能系统,所以大模型之后。真正决定 AI 速度的,或许已经不是模型本身。

而是:

谁能够更高效地管理数据、管理状态,并让整个智能系统持续高效运行。

相关推荐
ZhengEnCi8 小时前
Q03-UI设计进阶技巧-让界面更高级的7个核心原则
人工智能
IT_陈寒8 小时前
React的这个渲染问题连官方文档都没说清楚
前端·人工智能·后端
不加辣椒9 小时前
第12章 工具调用与 Agent 提示工程
人工智能
用户1693176172669 小时前
前端给AI消息做日期分组与时间线
人工智能
i晟10 小时前
Claude Code Harness 深度拆解:从你敲回车到模型回复,中间发生了什么
人工智能
用户2527362781411 小时前
【踩坑复盘】我在本地跑 RAG 知识库时踩了 5 个大坑,吐血整理避坑指南
人工智能
大模型真好玩11 小时前
LangChain DeepAgents 速通指南(九)—— 生产级智能体框架 DeepAgents Code 源码导读
人工智能·langchain·agent
用户0183493016913 小时前
用Zustand管理AI多会话状态
人工智能
武子康15 小时前
调查研究-198 Agent 到底该记住什么?读懂《What Must Generalist Agents Remember?》
人工智能·openai·agent