AI的下一场战争：从算力到存力

子玥酱 （掘金 / 知乎 / CSDN / 简书同名）

大家好，我是子玥酱，一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂，目前在某国企负责前端软件研发相关工作，主要聚焦于业务型系统的工程化建设与长期维护。

我持续输出和沉淀前端领域的实战经验，日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案，

在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。

技术方向： 前端 / 跨端 / 小程序 / 移动端工程化 内容平台： 掘金、知乎、CSDN、简书 创作特点： 实战导向、源码拆解、少空谈多落地 **文章状态：**长期稳定更新，大量原创输出

我的内容主要围绕 前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读 展开。文章不会停留在"API 怎么用"，而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍，希望能帮你在实际工作中少走弯路。

子玥酱 · 前端成长记录官 ✨

👋 如果你正在做前端，或准备长期走前端这条路

📚 关注我，第一时间获取前端行业趋势与实践总结

🎁 可领取 11 类前端进阶学习资源 （工程化 / 框架 / 跨端 / 面试 / 架构）

💡 一起把技术学"明白"，也用"到位"

持续写作，持续进阶。

愿我们都能在代码和生活里，走得更稳一点 🌱

文章目录

- 引言
- 一、为什么"算力崇拜"正在失效
- 二、AI为什么越来越依赖"存力"
- 三、Attention为什么会把存力问题彻底放大
- 四、长上下文为什么会引爆存力危机
- 五、Agent时代正在把存力推向核心位置
- 六、多Agent系统会导致状态爆炸
- 七、GPU为什么越来越像数据设备
- [八、AI Runtime正在成为新的操作系统](#八、AI Runtime正在成为新的操作系统)
- 九、端侧AI会最先进入存力瓶颈
- [十、AI产业正在进入State Scaling时代](#十、AI产业正在进入State Scaling时代)
- 总结

引言

过去几年，AI 行业最核心的竞争关键词，一直都是：

text 复制代码

算力（Compute）

从 GPT-3 到 GPT-4、从 Claude 到 Gemini、从 DeepSeek 到各种开源大模型。

整个行业几乎都围绕同一个目标展开竞争：

text 复制代码

更多GPU
更大集群
更多FLOPS

甚至很多人默认认为：

AI 的未来，本质上就是一场无限扩张的算力竞赛。

于是过去几年里，我们看到：

text 复制代码

参数规模越来越大
训练集群越来越大
GPU数量越来越多

行业最关心的问题始终是：

text 复制代码

如何获得更多计算资源

因为在 Transformer 发展的早期阶段，最大的瓶颈确实来自：

text 复制代码

Compute

但当大模型真正开始进入生产环境以后，一个新的问题开始出现。

越来越多团队发现：

text 复制代码

GPU并没有算满

反而大量时间消耗在：

text 复制代码

等待数据
等待内存
等待网络
等待状态同步

于是行业开始意识到：

现代 AI 最大的问题，已经不再只是"算不动"。

而是：

text 复制代码

存不下
搬不动
同步不了

也就是说：

AI 正在从"算力时代"，进入"存力时代"。

这里的存力（Memory Power），并不仅仅意味着：

text 复制代码

内存容量

而是：

text 复制代码

Memory
Bandwidth
Cache
State
Runtime

未来 AI 的竞争，很可能不再是谁拥有最多 GPU。而是谁能够管理最庞大的状态系统。

一、为什么"算力崇拜"正在失效

过去几年有一个非常流行的观点：

算力就是 AI 的生产力。

这句话在过去是成立的，因为：

text 复制代码

模型能力
≈
计算能力

模型越大，算力越强、效果越好。例如：

text 复制代码

GPT-2
↓
GPT-3
↓
GPT-4

背后本质上都是：

text 复制代码

Compute Scaling

但问题是：GPU 并不是无限快；更重要的是：GPU 不是孤立存在的。

它需要：

text 复制代码

CPU供给数据
内存供给状态
网络供给同步

例如：

python 复制代码

for batch in dataloader:

    output = model(batch)

很多人以为时间花在：

text 复制代码

model(batch)

实际上在大型系统里：

text 复制代码

DataLoader

往往才是真正的性能瓶颈，因为：

text 复制代码

读取数据
传输数据
同步数据

开始占据越来越高的比例，于是现代 AI 系统越来越像：

text 复制代码

GPU等待CPU
CPU等待IO
IO等待网络

形成一条长长的数据流水线。真正限制系统性能的，已经不再只是：

text 复制代码

Compute Throughput

而是：

text 复制代码

Data Throughput

二、AI为什么越来越依赖"存力"

传统软件和 AI 软件有一个本质区别。传统系统大多数属于：

text 复制代码

请求
↓
处理
↓
结束

例如：

python 复制代码

@app.route("/login")
def login():

    return "success"

请求结束、状态释放、系统回到初始状态。但 AI 系统完全不同，现代 AI 需要长期维护：

text 复制代码

上下文
记忆
推理历史
任务状态
工具调用记录

例如一个简单 Agent：

python 复制代码

class Agent:

    def __init__(self):

        self.memory = []

    def chat(self, msg):

        self.memory.append(msg)

        return self.memory

随着时间推移：

text 复制代码

Memory

会持续增长，现实系统里还会包含：

text 复制代码

Vector Memory
Task State
Tool History
Runtime Cache

于是系统真正复杂的问题变成：

text 复制代码

状态怎么存？
状态怎么查？
状态怎么恢复？

此时：

text 复制代码

计算

反而变成相对简单的问题，越来越多团队开始意识到：

AI 不再只是计算系统，而是状态系统。

三、Attention为什么会把存力问题彻底放大

Transformer 的成功来自：

text 复制代码

Attention

Attention 的本质是：

text 复制代码

不断读取历史状态

为了避免重复计算，现代模型会维护：

text 复制代码

KV Cache

例如：

python 复制代码

seq_len = 32000

hidden_size = 4096

layers = 80

bytes_per_value = 2

kv_cache_size = (
    seq_len *
    hidden_size *
    2 *
    layers *
    bytes_per_value
)

print(
    kv_cache_size /
    1024 /
    1024 /
    1024
)

结果接近：

text 复制代码

40GB+

也就是说：

text 复制代码

一个用户

就可能占据几十 GB 的状态空间，于是：

text 复制代码

GPU越来越快

但：

text 复制代码

KV Cache越来越大

最终系统进入状态：

text 复制代码

Memory Bound

所以：

text 复制代码

FlashAttention
PagedAttention
SparseAttention

本质上都在解决同一个问题：

如何降低状态管理成本。

四、长上下文为什么会引爆存力危机

未来 AI 想真正实现：

text 复制代码

长期记忆
复杂推理
自治任务

就必须拥有：

text 复制代码

超长上下文

问题在于，每增加一个 Token。系统都会新增：

text 复制代码

KV Cache
Attention State
Runtime State

例如：

python 复制代码

context = 1000000

state_size = 8 * 1024

memory = (
    context *
    state_size
)

print(
    memory /
    1024 /
    1024 /
    1024
)

结果达到数 GB，于是很多长上下文模型真正卡住的原因不是：

text 复制代码

算不动

而是：

text 复制代码

存不下

因此：

text 复制代码

Memory Compression
Sparse Attention
State Pruning

开始成为热门方向。

五、Agent时代正在把存力推向核心位置

LLM 解决的是：

text 复制代码

生成

Agent 解决的是：

text 复制代码

执行

但执行意味着：

text 复制代码

状态持续存在

例如：

python 复制代码

class AgentState:

    def __init__(self):

        self.tasks = []

        self.memory = []

        self.logs = []

随着运行时间增长：

text 复制代码

任务增加
记忆增加
日志增加

系统压力会越来越大，于是 Agent Runtime 最大的问题变成：

text 复制代码

如何管理状态

而不是：

text 复制代码

如何调用模型

六、多Agent系统会导致状态爆炸

未来最热门的方向之一：

text 复制代码

Multi-Agent

但多个 Agent 意味着：

text 复制代码

更多上下文
更多记忆
更多状态

例如：

python 复制代码

agent_count = 1000

memory_per_agent = 100

print(
    agent_count *
    memory_per_agent
)

结果：

text 复制代码

100000 MB

即：

text 复制代码

100GB+

而且还没计算：

text 复制代码

同步
通信
共享记忆

因此：

Multi-Agent 的核心挑战其实是状态管理。

七、GPU为什么越来越像数据设备

过去 GPU 竞争的是：

text 复制代码

TFLOPS

未来竞争的是：

text 复制代码

HBM
Bandwidth
NVLink

因为：

text 复制代码

数据搬运

正在成为系统最大成本，未来 GPU 架构会越来越偏向：

text 复制代码

Memory-Centric

而非：

text 复制代码

Compute-Centric

八、AI Runtime正在成为新的操作系统

未来 Runtime 需要管理：

text 复制代码

任务
状态
缓存
Agent
资源

例如：

python 复制代码

class Runtime:

    def schedule(self):

        pass

    def recover(self):

        pass

    def allocate(self):

        pass

越来越像：

text 复制代码

Operating System

区别只是，传统 OS 管理：

text 复制代码

CPU
Memory
Process

AI Runtime 管理：

text 复制代码

Model
Context
Agent
State

九、端侧AI会最先进入存力瓶颈

云端还能扩 GPU，但资源有限，如：

text 复制代码

手机
机器人
AR眼镜
车机

未来最大的限制往往不是：

text 复制代码

CPU不够

而是：

text 复制代码

Memory不够

因此：

text 复制代码

INT4
KV Compression
Incremental Inference

会越来越重要。

十、AI产业正在进入State Scaling时代

AI 的发展路径正在变化：

第一阶段：

text 复制代码

Compute Scaling

第二阶段：

text 复制代码

Model Scaling

第三阶段：

text 复制代码

State Scaling

未来决定系统上限的，越来越不是：

text 复制代码

参数规模

而是：

text 复制代码

状态规模

总结

过去十年，AI 行业追逐的是：

text 复制代码

FLOPS

大家认为：

text 复制代码

算力决定未来

但随着：

text 复制代码

长上下文
Agent
持续推理
多智能体

不断出现，行业正在经历一次新的范式转移，未来真正决定 AI 上限的资源可能不再是：

text 复制代码

Compute

而是：

text 复制代码

Memory
Bandwidth
Runtime
State

因为现代 AI 已经越来越不像：

text 复制代码

一次性的计算程序

而越来越像：

text 复制代码

持续运行的智能系统

当 AI 开始拥有：

text 复制代码

长期记忆
复杂协作
自治执行

真正昂贵的事情就不再是：

text 复制代码

计算一次答案

而是：

text 复制代码

维持智能持续存在

所以 AI 的下一场战争，很可能不是：

text 复制代码

谁拥有更多GPU

而是：

谁能够更高效地存储状态、管理状态、调度状态，并支撑一个长期运行的智能世界。

从这个角度看，AI 正在从：

text 复制代码

Compute Scaling

走向：

text 复制代码

State Scaling

而这，或许才是未来十年 AI 基础设施最重要的一场革命。