大模型之后,谁在决定AI的真实速度?


子玥酱 (掘金 / 知乎 / CSDN / 简书 同名)

大家好,我是 子玥酱,一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。

我持续输出和沉淀前端领域的实战经验,日常关注并分享的技术方向包括 前端工程化、小程序、React / RN、Flutter、跨端方案,

在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。

技术方向: 前端 / 跨端 / 小程序 / 移动端工程化 内容平台: 掘金、知乎、CSDN、简书 创作特点: 实战导向、源码拆解、少空谈多落地 **文章状态:**长期稳定更新,大量原创输出

我的内容主要围绕 前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读 展开。文章不会停留在"API 怎么用",而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍,希望能帮你在实际工作中少走弯路。

子玥酱 · 前端成长记录官 ✨

👋 如果你正在做前端,或准备长期走前端这条路

📚 关注我,第一时间获取前端行业趋势与实践总结

🎁 可领取 11 类前端进阶学习资源 (工程化 / 框架 / 跨端 / 面试 / 架构)

💡 一起把技术学"明白",也用"到位"

持续写作,持续进阶。

愿我们都能在代码和生活里,走得更稳一点 🌱

文章目录

引言

过去几年,AI 行业最喜欢讨论的话题是什么?答案几乎毫无悬念:

text 复制代码
模型有多大

从:

text 复制代码
GPT-3
↓
GPT-4
↓
GPT-5

到:

text 复制代码
Llama
Claude
Gemini
DeepSeek

整个行业都在关注:

text 复制代码
参数规模
训练数据
推理能力

甚至很多人形成了一种默认认知:

模型越强,AI 就越快。

但当越来越多企业开始真正部署大模型以后,一个有趣的现象出现了。

很多团队发现:

text 复制代码
模型能力足够强

但系统依然:

text 复制代码
响应慢
延迟高
吞吐低
成本贵

问题在哪里?很多时候并不是:

text 复制代码
模型不会推理

而是:

text 复制代码
系统跑不动推理

于是行业开始意识到:

AI 的速度,已经不再只是模型速度。

真正决定用户体验的,越来越是:

text 复制代码
数据流速度
状态流速度
系统调度速度

换句话说,大模型时代之后。AI 的竞争开始从:

text 复制代码
Model Scaling

逐渐进入:

text 复制代码
System Scaling

而决定 AI 真实速度的主角,也正在悄悄发生变化。

一、为什么模型越来越强,系统却越来越慢

很多人第一次接触 AI 推理时都会产生一个错觉:

text 复制代码
推理慢
=
GPU不够

事实上,现代 GPU 的计算能力已经极其夸张。例如:

python 复制代码
import torch
import time

x = torch.randn(
    8192,
    8192
).cuda()

start = time.time()

y = torch.matmul(x, x)

torch.cuda.synchronize()

print(
    time.time() - start
)

一次超大矩阵乘法,往往只需要几十毫秒。但真实生产环境里的请求却可能需要:

text 复制代码
数百毫秒
甚至数秒

为什么?因为大量时间并没有花在:

text 复制代码
Compute

而是花在这些上面:

text 复制代码
Load Data
Move Data
Sync Data

也就是说:

text 复制代码
GPU很快

但:

text 复制代码
数据很慢

于是系统开始进入一种典型状态:

text 复制代码
GPU等待数据

而不是:

text 复制代码
GPU持续计算

这也是现代 AI 系统最常见的问题之一。

二、真正限制AI速度的,是数据流

很多人理解 AI:

text 复制代码
输入
↓
模型
↓
输出

但真实系统其实更像:

text 复制代码
数据读取
↓
数据传输
↓
缓存加载
↓
模型推理
↓
结果返回

模型推理只是其中一步,例如:

python 复制代码
for batch in dataloader:

    output = model(batch)

很多时候真正耗时的是:

python 复制代码
batch = next(dataloader)

因为背后涉及:

text 复制代码
磁盘读取
网络加载
预处理
序列化

如果这些环节慢,GPU 即使空闲也无法工作。于是越来越多基础设施团队开始关注:

text 复制代码
Data Pipeline

而不是:

text 复制代码
Model Pipeline

因为:

AI 的真实速度,本质上是数据流速度。

三、KV Cache 正在成为新的性能瓶颈

过去大家关注:

text 复制代码
模型参数

现在越来越关注:

text 复制代码
KV Cache

原因很简单,现代 Transformer 推理过程中。最昂贵的资源之一已经变成:

text 复制代码
历史状态

例如:

python 复制代码
seq_len = 128000

hidden_size = 4096

layers = 80

memory = (
    seq_len *
    hidden_size *
    layers *
    4
)

print(
    memory /
    1024 /
    1024 /
    1024
)

很快就能达到:

text 复制代码
数十GB

这意味着:

text 复制代码
模型参数

可能已经不是最大开销,真正占据资源的反而是:

text 复制代码
运行时状态

于是系统开始进入状态:

text 复制代码
Memory Bound

而不是状态:

text 复制代码
Compute Bound

四、为什么带宽正在取代FLOPS

过去评价 GPU,大家首先看:

text 复制代码
TFLOPS

因为:

text 复制代码
算力越高
性能越强

但最近几年 GPU 厂商越来越喜欢强调:

text 复制代码
HBM
NVLink
Memory Bandwidth

原因就在于,现代 AI 系统很多时候真正状态是:

text 复制代码
GPU在等数据

而不是:

text 复制代码
GPU在算数据

例如:

text 复制代码
GPU算力提升2倍

并不一定意味着:

text 复制代码
推理速度提升2倍

因为:

text 复制代码
数据搬运速度

可能根本跟不上,于是未来越来越重要的指标开始变成:

text 复制代码
Bandwidth

而不是:

text 复制代码
FLOPS

五、长上下文正在重构性能体系

未来 AI 想实现:

text 复制代码
长期记忆
复杂推理
持续任务

必须拥有:

text 复制代码
超长上下文

但上下文越长,系统越像:

text 复制代码
内存系统

而不是:

text 复制代码
计算系统

因为:

text 复制代码
每个Token

都会产生:

text 复制代码
KV State
Attention State
Runtime State

于是:

text 复制代码
1M Context

最大的挑战不是:

text 复制代码
算不动

而是:

text 复制代码
存不下

未来长上下文竞争,本质上会变成:

text 复制代码
Memory Competition

六、Agent系统让"速度"拥有了新定义

过去的 AI:

text 复制代码
问一次
答一次

速度很好衡量:

text 复制代码
Token/s

即可,但 Agent 不同。例如:

text 复制代码
规划任务
调用工具
执行操作
状态同步
结果验证

整个过程可能持续:

text 复制代码
几分钟
几小时
甚至几天

这时候:

text 复制代码
Token速度

已经不再重要,真正重要的是:

text 复制代码
任务完成速度

而任务完成速度背后依赖的是:

text 复制代码
调度效率
状态效率
资源效率

所以 Agent 时代的性能指标正在发生变化。

七、AI Runtime 正在成为新的性能核心

很多人觉得:

text 复制代码
模型决定能力

但未来越来越可能是:

text 复制代码
Runtime决定体验

因为 Runtime 负责:

text 复制代码
资源调度
状态管理
缓存管理
任务编排

例如:

python 复制代码
class Runtime:

    def schedule(self):

        pass

    def recover(self):

        pass

    def cache(self):

        pass

未来 Runtime 的重要性会越来越像:

text 复制代码
操作系统

因为:

text 复制代码
模型负责思考

而:

text 复制代码
Runtime负责运行

八、为什么未来AI越来越像数据中心

过去很多人认为:

text 复制代码
GPU是AI核心

未来可能变成:

text 复制代码
数据流才是AI核心

因为现代 AI 集群最大的成本往往来自:

text 复制代码
网络通信
状态同步
缓存传输

而不是:

text 复制代码
矩阵计算

于是未来基础设施竞争将围绕以下内容展开:

text 复制代码
Memory
Bandwidth
Runtime
Interconnect

这也是为什么越来越多人认为:

AI 的未来,本质上是一场数据流战争。

总结

过去几年,行业相信:

text 复制代码
更大的模型
=
更快的AI

但现实越来越证明:

text 复制代码
更强模型
≠
更快系统

因为现代 AI 的瓶颈已经从:

text 复制代码
Compute

逐渐转向:

text 复制代码
Memory
Bandwidth
Runtime
State

未来真正决定 AI 真实速度的,可能不再是:

text 复制代码
模型参数

而是:

text 复制代码
数据流速度
状态流速度
系统调度效率

当 AI 开始拥有:

text 复制代码
长上下文
多Agent
持续推理
自治任务

它就越来越不像一个简单的模型,而越来越像一个持续运行的智能系统,所以大模型之后。真正决定 AI 速度的,或许已经不是模型本身。

而是:

谁能够更高效地管理数据、管理状态,并让整个智能系统持续高效运行。

相关推荐
落羽的落羽1 小时前
【项目】JsonRpc框架——开发实现2(业务层)
linux·数据结构·c++·人工智能·算法·json·动态规划
染指11101 小时前
19.LangChain框架7-LangChain1.0版本使用Agent(中间件实例)
人工智能·python·机器学习·langchain·agent·rag
孟俊宇-MJY1 小时前
CSDN AI数字营销内容创作功能测评
大数据·人工智能
网络研究院1 小时前
AI安全格局:前沿模型、智能体AI和AI编码工具如何重塑网络安全与关键基础设施韧性
网络·人工智能·安全·模型·威胁
装不满的克莱因瓶1 小时前
从梯度下降到 Adam 优化器:掌握神经网络参数优化的核心原理
人工智能·python·深度学习·神经网络·机器学习·计算机视觉·ai
maosheng11461 小时前
基于AI 文本生成的自动化Linux 运维文档系统
运维·人工智能·自动化
cxr8281 小时前
分享新疆应急决策大脑功能特性简报
人工智能·应急响应管理
Raink老师1 小时前
【AI面试临阵磨枪-98】前端如何展示多模态流式输出:文字打字机 + 图片渐进 + 音频播放?
前端·人工智能·面试
Jelena157795857921 小时前
主流电商平台(淘宝/1688/京东/拼多多)商品比价与数据分析实战指南
大数据·人工智能·数据分析