
网罗开发 (小红书、快手、视频号同名)
大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。
图书作者:《ESP32-C3 物联网工程开发实战》
图书作者:《SwiftUI 入门,进阶与实战》
超级个体:COC上海社区主理人
特约讲师:大学讲师,谷歌亚马逊分享嘉宾
科技博主:华为HDE/HDG
我的博客内容涵盖广泛,主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验 。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告,同时也会提供产品优缺点分析、横向对比,并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。
展菲:您的前沿技术领航员
👋 大家好,我是展菲!
📱 全网搜索"展菲",即可纵览我在各大平台的知识足迹。
每周定时推送干货满满的技术长文,从新兴框架的剖析到运维实战的复盘,助您技术进阶之路畅通无阻。
文章目录
-
- 引言
- 一、为什么GPU越来越强,推理却没有线性增长
- 二、推理系统到底在消耗什么资源
- 三、为什么CPU开始重新变得重要
- [四、KV Cache让CPU和GPU重新绑定](#四、KV Cache让CPU和GPU重新绑定)
- 五、PagedAttention为什么改变行业
- 六、MoE为什么天然适合异构架构
- 七、Agent时代最重要的是Runtime协同
- 八、未来推理优化将从GPU优化变成系统优化
- 九、未来数据中心会从GPU中心转向异构中心
-
- [CPU 负责:](#CPU 负责:)
- [GPU 负责:](#GPU 负责:)
- [DPU 负责:](#DPU 负责:)
- [NPU 负责:](#NPU 负责:)
- 十、异构协同正在成为AI基础设施的新范式
- 总结
引言
过去几年,AI 基础设施领域有一个非常普遍的认知:
text
GPU决定AI能力
于是整个行业的关注点几乎都集中在:
text
更强GPU
更大显存
更高带宽
演进之路是:
text
V100
A100
H100
B200
GB200
很多企业建设 AI 平台时,最先关注的往往也是:
text
买多少GPU
但随着大模型逐渐进入生产环境,一个越来越现实的问题开始出现:
text
GPU越来越强
推理效率却没有同步提升
很多团队会发现:
text
GPU利用率只有30%
~50%
而与此同时:
text
CPU已经满载
甚至出现的现象是:
text
GPU等待CPU
于是行业开始意识到:
AI推理的瓶颈,已经不再只是GPU。
而是:
text
CPU
+
GPU
+
Memory
+
Network
+
Runtime
共同构成的系统问题,换句话说:
未来AI推理优化,本质上是一场异构协同优化。
而不是单纯的 GPU 优化。
一、为什么GPU越来越强,推理却没有线性增长
很多人理想中的推理过程是:
text
Prompt
↓
GPU
↓
Answer
似乎 GPU 就完成了全部工作,但真实系统里实际上是:
text
Request
↓
CPU解析
↓
Token预处理
↓
GPU推理
↓
CPU后处理
↓
返回结果
例如:
python
tokens = tokenizer.encode(prompt)
gpu.forward(tokens)
result = tokenizer.decode(output)
这里:
text
Tokenizer
本身就运行在 CPU,而且随着上下文越来越长:
text
32K
128K
1M Context
CPU 开销也越来越大,因此很多场景下:
text
GPU不是瓶颈
CPU才是瓶颈
二、推理系统到底在消耗什么资源
很多人认为:
text
推理
=
矩阵计算
实际上现代 AI 推理包含四部分。
第一部分
text
Pre-processing
例如:
python
tokenizer.encode()
prompt.build()
template.render()
全部由 CPU 完成。
第二部分
text
Inference
例如:
python
attention()
matmul()
ffn()
主要由 GPU 执行。
第三部分
text
Post-processing
例如:
python
tokenizer.decode()
json.parse()
response.format()
依然属于 CPU 工作。
第四部分
text
Runtime Scheduling
例如:
python
queue.schedule()
batch.merge()
cache.route()
同样由 CPU 控制,所以真正的推理链路其实是:
text
CPU
↓
GPU
↓
CPU
↓
Runtime
而不是:
text
GPU
↓
GPU
↓
GPU
三、为什么CPU开始重新变得重要
训练时代:
text
GPU负责99%
CPU更多是辅助角色,但Agent时代出现以后:
text
任务复杂度
远远超过:
text
模型复杂度
例如,一个企业Agent收到请求:
text
分析本月销售情况
实际执行流程可能是:
python
crm.query()
erp.query()
report.build()
llm.reason()
email.send()
这里真正使用 GPU 的时间可能只有:
python
llm.reason()
其余大量时间消耗在:
text
IO
调度
缓存
状态管理
这些全部属于:
text
CPU领域
于是:
未来Agent越多,CPU越重要。
四、KV Cache让CPU和GPU重新绑定
长上下文出现以后,行业开始遇到新的问题:
text
KV Cache越来越大
例如:
text
8K
32K
128K
1M
上下文增长时:
text
KV Cache
也同步增长,很多时候:
text
显存根本装不下
于是开始出现:
text
CPU Memory
+
GPU Memory
协同管理模式,例如:
python
hot_cache -> GPU
cold_cache -> CPU
当访问历史内容时:
python
load_to_gpu()
动态迁移,这本质上就是:
text
Memory Tiering
即:
text
分层内存架构
未来越来越重要。
五、PagedAttention为什么改变行业
过去:
text
KV Cache
通常连续存储,结果导致:
text
显存碎片
越来越严重,于是出现:
text
PagedAttention
核心思想类似:
text
操作系统分页机制
例如:
python
Page1
Page2
Page3
按需加载,这样:
text
GPU负责热点数据
CPU负责冷数据
实现:
text
CPU + GPU
协同管理上下文,很多人认为:
text
PagedAttention
只是推理优化,其实背后反映的是:
AI系统越来越像操作系统。
六、MoE为什么天然适合异构架构
Dense Model:
text
全部参数参与计算
而:
text
MoE
则是:
text
只激活部分专家
例如:
python
router()
expert_1()
expert_7()
这里:
text
Router
通常属于:
text
CPU调度逻辑
而:
text
Expert
属于:
text
GPU计算逻辑
形成:
text
CPU负责决策
GPU负责执行
未来超大规模 MoE 系统,越来越像:
text
分布式调度系统
而不只是:
text
神经网络
七、Agent时代最重要的是Runtime协同
过去推理:
text
一次请求
一次响应
现在推理变成:
text
持续运行
例如:
python
while True:
observe()
reason()
act()
这时候:
text
CPU负责事件循环
例如:
python
event_loop.run()
GPU负责:
python
model.forward()
两者不断交替,形成:
text
CPU ↔ GPU
持续协同模式,这也是为什么:
text
Agent Runtime
开始成为行业热点。
八、未来推理优化将从GPU优化变成系统优化
过去优化思路:
text
优化Kernel
优化CUDA
优化Attention
未来优化思路:
text
优化调度
优化缓存
优化网络
优化内存
例如:
python
scheduler.batch()
memory.pool()
cache.prefetch()
很多时候:
text
减少一次数据搬运
带来的收益甚至超过:
text
提升10% FLOPS
因为:
text
系统效率
已经开始超过:
text
计算效率
成为主要瓶颈。
九、未来数据中心会从GPU中心转向异构中心
过去数据中心架构:
text
CPU
↓
GPU Cluster
未来可能变成:
text
CPU
+
GPU
+
DPU
+
NPU
+
HBM Pool
例如:
CPU 负责:
text
控制流
GPU 负责:
text
计算流
DPU 负责:
text
网络流
NPU 负责:
text
边缘推理
形成:
text
Heterogeneous Fabric
即:
text
异构算力网络
未来比拼的已经不是:
text
单个GPU
而是:
text
整个系统协同效率
十、异构协同正在成为AI基础设施的新范式
回顾AI发展路径。
第一阶段
text
Compute Era
关注:
text
GPU有多强
第二阶段
text
Model Era
关注:
text
模型有多强
第三阶段
text
Agent Era
关注:
text
系统有多强
因为未来真正限制AI的,越来越不是:
text
算不出来
而是:
text
调不起来
不是:
text
GPU不够
而是:
text
资源协同效率不够
总结
很多人还在讨论:
text
下一代GPU
但未来几年,行业最重要的问题可能已经变成:
text
CPU如何协同GPU?
因为现代AI推理已经不再是:
text
一次矩阵计算
而是:
text
推理
+
缓存
+
调度
+
通信
+
状态管理
组成的复杂系统,未来真正先进的AI平台,比拼的不会只是:
text
FLOPS
而是:
text
CPU调度能力
GPU计算能力
Memory管理能力
Runtime协同能力
共同构成的整体效率,从这个角度看,
异构协同不是推理优化的一部分。
而是:
智能体时代 AI 基础设施的核心设计原则。
未来的 AI 数据中心,本质上不再是一堆 GPU。
而是一套持续运行、动态协同、自主调度的智能计算系统。