

子玥酱 (掘金 / 知乎 / CSDN / 简书 同名)
大家好,我是 子玥酱,一名长期深耕在一线的前端程序媛 👩💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。
我持续输出和沉淀前端领域的实战经验,日常关注并分享的技术方向包括 前端工程化、小程序、React / RN、Flutter、跨端方案,
在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。
技术方向: 前端 / 跨端 / 小程序 / 移动端工程化 内容平台: 掘金、知乎、CSDN、简书 创作特点: 实战导向、源码拆解、少空谈多落地 **文章状态:**长期稳定更新,大量原创输出
我的内容主要围绕 前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读 展开。文章不会停留在"API 怎么用",而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍,希望能帮你在实际工作中少走弯路。
子玥酱 · 前端成长记录官 ✨
👋 如果你正在做前端,或准备长期走前端这条路
📚 关注我,第一时间获取前端行业趋势与实践总结
🎁 可领取 11 类前端进阶学习资源 (工程化 / 框架 / 跨端 / 面试 / 架构)
💡 一起把技术学"明白",也用"到位"
持续写作,持续进阶。
愿我们都能在代码和生活里,走得更稳一点 🌱
文章目录
-
- 引言
- 一、为什么"算力崇拜"正在失效
- 二、AI为什么越来越依赖"存力"
- 三、Attention为什么会把存力问题彻底放大
- 四、长上下文为什么会引爆存力危机
- 五、Agent时代正在把存力推向核心位置
- 六、多Agent系统会导致状态爆炸
- 七、GPU为什么越来越像数据设备
- [八、AI Runtime正在成为新的操作系统](#八、AI Runtime正在成为新的操作系统)
- 九、端侧AI会最先进入存力瓶颈
- [十、AI产业正在进入State Scaling时代](#十、AI产业正在进入State Scaling时代)
- 总结
引言
过去几年,AI 行业最核心的竞争关键词,一直都是:
text
算力(Compute)
从 GPT-3 到 GPT-4、从 Claude 到 Gemini、从 DeepSeek 到各种开源大模型。
整个行业几乎都围绕同一个目标展开竞争:
text
更多GPU
更大集群
更多FLOPS
甚至很多人默认认为:
AI 的未来,本质上就是一场无限扩张的算力竞赛。
于是过去几年里,我们看到:
text
参数规模越来越大
训练集群越来越大
GPU数量越来越多
行业最关心的问题始终是:
text
如何获得更多计算资源
因为在 Transformer 发展的早期阶段,最大的瓶颈确实来自:
text
Compute
但当大模型真正开始进入生产环境以后,一个新的问题开始出现。
越来越多团队发现:
text
GPU并没有算满
反而大量时间消耗在:
text
等待数据
等待内存
等待网络
等待状态同步
于是行业开始意识到:
现代 AI 最大的问题,已经不再只是"算不动"。
而是:
text
存不下
搬不动
同步不了
也就是说:
AI 正在从"算力时代",进入"存力时代"。
这里的存力(Memory Power),并不仅仅意味着:
text
内存容量
而是:
text
Memory
Bandwidth
Cache
State
Runtime
未来 AI 的竞争,很可能不再是谁拥有最多 GPU。而是谁能够管理最庞大的状态系统。
一、为什么"算力崇拜"正在失效
过去几年有一个非常流行的观点:
算力就是 AI 的生产力。
这句话在过去是成立的,因为:
text
模型能力
≈
计算能力
模型越大,算力越强、效果越好。例如:
text
GPT-2
↓
GPT-3
↓
GPT-4
背后本质上都是:
text
Compute Scaling
但问题是:GPU 并不是无限快;更重要的是:GPU 不是孤立存在的。
它需要:
text
CPU供给数据
内存供给状态
网络供给同步
例如:
python
for batch in dataloader:
output = model(batch)
很多人以为时间花在:
text
model(batch)
实际上在大型系统里:
text
DataLoader
往往才是真正的性能瓶颈,因为:
text
读取数据
传输数据
同步数据
开始占据越来越高的比例,于是现代 AI 系统越来越像:
text
GPU等待CPU
CPU等待IO
IO等待网络
形成一条长长的数据流水线。真正限制系统性能的,已经不再只是:
text
Compute Throughput
而是:
text
Data Throughput
二、AI为什么越来越依赖"存力"
传统软件和 AI 软件有一个本质区别。传统系统大多数属于:
text
请求
↓
处理
↓
结束
例如:
python
@app.route("/login")
def login():
return "success"
请求结束、状态释放、系统回到初始状态。但 AI 系统完全不同,现代 AI 需要长期维护:
text
上下文
记忆
推理历史
任务状态
工具调用记录
例如一个简单 Agent:
python
class Agent:
def __init__(self):
self.memory = []
def chat(self, msg):
self.memory.append(msg)
return self.memory
随着时间推移:
text
Memory
会持续增长,现实系统里还会包含:
text
Vector Memory
Task State
Tool History
Runtime Cache
于是系统真正复杂的问题变成:
text
状态怎么存?
状态怎么查?
状态怎么恢复?
此时:
text
计算
反而变成相对简单的问题,越来越多团队开始意识到:
AI 不再只是计算系统,而是状态系统。
三、Attention为什么会把存力问题彻底放大
Transformer 的成功来自:
text
Attention
Attention 的本质是:
text
不断读取历史状态
为了避免重复计算,现代模型会维护:
text
KV Cache
例如:
python
seq_len = 32000
hidden_size = 4096
layers = 80
bytes_per_value = 2
kv_cache_size = (
seq_len *
hidden_size *
2 *
layers *
bytes_per_value
)
print(
kv_cache_size /
1024 /
1024 /
1024
)
结果接近:
text
40GB+
也就是说:
text
一个用户
就可能占据几十 GB 的状态空间,于是:
text
GPU越来越快
但:
text
KV Cache越来越大
最终系统进入状态:
text
Memory Bound
所以:
text
FlashAttention
PagedAttention
SparseAttention
本质上都在解决同一个问题:
如何降低状态管理成本。
四、长上下文为什么会引爆存力危机
未来 AI 想真正实现:
text
长期记忆
复杂推理
自治任务
就必须拥有:
text
超长上下文
问题在于,每增加一个 Token。系统都会新增:
text
KV Cache
Attention State
Runtime State
例如:
python
context = 1000000
state_size = 8 * 1024
memory = (
context *
state_size
)
print(
memory /
1024 /
1024 /
1024
)
结果达到数 GB,于是很多长上下文模型真正卡住的原因不是:
text
算不动
而是:
text
存不下
因此:
text
Memory Compression
Sparse Attention
State Pruning
开始成为热门方向。
五、Agent时代正在把存力推向核心位置
LLM 解决的是:
text
生成
Agent 解决的是:
text
执行
但执行意味着:
text
状态持续存在
例如:
python
class AgentState:
def __init__(self):
self.tasks = []
self.memory = []
self.logs = []
随着运行时间增长:
text
任务增加
记忆增加
日志增加
系统压力会越来越大,于是 Agent Runtime 最大的问题变成:
text
如何管理状态
而不是:
text
如何调用模型
六、多Agent系统会导致状态爆炸
未来最热门的方向之一:
text
Multi-Agent
但多个 Agent 意味着:
text
更多上下文
更多记忆
更多状态
例如:
python
agent_count = 1000
memory_per_agent = 100
print(
agent_count *
memory_per_agent
)
结果:
text
100000 MB
即:
text
100GB+
而且还没计算:
text
同步
通信
共享记忆
因此:
Multi-Agent 的核心挑战其实是状态管理。
七、GPU为什么越来越像数据设备
过去 GPU 竞争的是:
text
TFLOPS
未来竞争的是:
text
HBM
Bandwidth
NVLink
因为:
text
数据搬运
正在成为系统最大成本,未来 GPU 架构会越来越偏向:
text
Memory-Centric
而非:
text
Compute-Centric
八、AI Runtime正在成为新的操作系统
未来 Runtime 需要管理:
text
任务
状态
缓存
Agent
资源
例如:
python
class Runtime:
def schedule(self):
pass
def recover(self):
pass
def allocate(self):
pass
越来越像:
text
Operating System
区别只是,传统 OS 管理:
text
CPU
Memory
Process
AI Runtime 管理:
text
Model
Context
Agent
State
九、端侧AI会最先进入存力瓶颈
云端还能扩 GPU,但资源有限,如:
text
手机
机器人
AR眼镜
车机
未来最大的限制往往不是:
text
CPU不够
而是:
text
Memory不够
因此:
text
INT4
KV Compression
Incremental Inference
会越来越重要。
十、AI产业正在进入State Scaling时代
AI 的发展路径正在变化:
第一阶段:
text
Compute Scaling
第二阶段:
text
Model Scaling
第三阶段:
text
State Scaling
未来决定系统上限的,越来越不是:
text
参数规模
而是:
text
状态规模
总结
过去十年,AI 行业追逐的是:
text
FLOPS
大家认为:
text
算力决定未来
但随着:
text
长上下文
Agent
持续推理
多智能体
不断出现,行业正在经历一次新的范式转移,未来真正决定 AI 上限的资源可能不再是:
text
Compute
而是:
text
Memory
Bandwidth
Runtime
State
因为现代 AI 已经越来越不像:
text
一次性的计算程序
而越来越像:
text
持续运行的智能系统
当 AI 开始拥有:
text
长期记忆
复杂协作
自治执行
真正昂贵的事情就不再是:
text
计算一次答案
而是:
text
维持智能持续存在
所以 AI 的下一场战争,很可能不是:
text
谁拥有更多GPU
而是:
谁能够更高效地存储状态、管理状态、调度状态,并支撑一个长期运行的智能世界。
从这个角度看,AI 正在从:
text
Compute Scaling
走向:
text
State Scaling
而这,或许才是未来十年 AI 基础设施最重要的一场革命。