异构协同，算力重构：CPU+GPU架构下的AI推理优化

网罗开发 （小红书、快手、视频号同名）

大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。

图书作者：《ESP32-C3 物联网工程开发实战》
图书作者：《SwiftUI 入门，进阶与实战》
超级个体：COC上海社区主理人
特约讲师：大学讲师，谷歌亚马逊分享嘉宾
科技博主：华为HDE/HDG

我的博客内容涵盖广泛，主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验 。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告，同时也会提供产品优缺点分析、横向对比，并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。

展菲：您的前沿技术领航员

👋 大家好，我是展菲！

📱 全网搜索"展菲"，即可纵览我在各大平台的知识足迹。

每周定时推送干货满满的技术长文，从新兴框架的剖析到运维实战的复盘，助您技术进阶之路畅通无阻。

文章目录

- 引言
- 一、为什么GPU越来越强，推理却没有线性增长
- 二、推理系统到底在消耗什么资源
- 三、为什么CPU开始重新变得重要
- [四、KV Cache让CPU和GPU重新绑定](#四、KV Cache让CPU和GPU重新绑定)
- 五、PagedAttention为什么改变行业
- 六、MoE为什么天然适合异构架构
- 七、Agent时代最重要的是Runtime协同
- 八、未来推理优化将从GPU优化变成系统优化
- 九、未来数据中心会从GPU中心转向异构中心
- - [CPU 负责：](#CPU 负责：)
  - [GPU 负责：](#GPU 负责：)
  - [DPU 负责：](#DPU 负责：)
  - [NPU 负责：](#NPU 负责：)
- 十、异构协同正在成为AI基础设施的新范式
- 总结

引言

过去几年，AI 基础设施领域有一个非常普遍的认知：

text 复制代码

GPU决定AI能力

于是整个行业的关注点几乎都集中在：

text 复制代码

更强GPU
更大显存
更高带宽

演进之路是：

text 复制代码

V100
A100
H100
B200
GB200

很多企业建设 AI 平台时，最先关注的往往也是：

text 复制代码

买多少GPU

但随着大模型逐渐进入生产环境，一个越来越现实的问题开始出现：

text 复制代码

GPU越来越强
推理效率却没有同步提升

很多团队会发现：

text 复制代码

GPU利用率只有30%
~50%

而与此同时：

text 复制代码

CPU已经满载

甚至出现的现象是：

text 复制代码

GPU等待CPU

于是行业开始意识到：

AI推理的瓶颈，已经不再只是GPU。

而是：

text 复制代码

CPU
+
GPU
+
Memory
+
Network
+
Runtime

共同构成的系统问题，换句话说：

未来AI推理优化，本质上是一场异构协同优化。

而不是单纯的 GPU 优化。

一、为什么GPU越来越强，推理却没有线性增长

很多人理想中的推理过程是：

text 复制代码

Prompt
 ↓
GPU
 ↓
Answer

似乎 GPU 就完成了全部工作，但真实系统里实际上是：

text 复制代码

Request
 ↓
CPU解析
 ↓
Token预处理
 ↓
GPU推理
 ↓
CPU后处理
 ↓
返回结果

例如：

python 复制代码

tokens = tokenizer.encode(prompt)

gpu.forward(tokens)

result = tokenizer.decode(output)

这里：

text 复制代码

Tokenizer

本身就运行在 CPU，而且随着上下文越来越长：

text 复制代码

32K
128K
1M Context

CPU 开销也越来越大，因此很多场景下：

text 复制代码

GPU不是瓶颈
CPU才是瓶颈

二、推理系统到底在消耗什么资源

很多人认为：

text 复制代码

推理
=
矩阵计算

实际上现代 AI 推理包含四部分。

第一部分

text 复制代码

Pre-processing

例如：

python 复制代码

tokenizer.encode()

prompt.build()

template.render()

全部由 CPU 完成。

第二部分

text 复制代码

Inference

例如：

python 复制代码

attention()

matmul()

ffn()

主要由 GPU 执行。

第三部分

text 复制代码

Post-processing

例如：

python 复制代码

tokenizer.decode()

json.parse()

response.format()

依然属于 CPU 工作。

第四部分

text 复制代码

Runtime Scheduling

例如：

python 复制代码

queue.schedule()

batch.merge()

cache.route()

同样由 CPU 控制，所以真正的推理链路其实是：

text 复制代码

CPU
 ↓
GPU
 ↓
CPU
 ↓
Runtime

而不是：

text 复制代码

GPU
 ↓
GPU
 ↓
GPU

三、为什么CPU开始重新变得重要

训练时代：

text 复制代码

GPU负责99%

CPU更多是辅助角色，但Agent时代出现以后：

text 复制代码

任务复杂度

远远超过：

text 复制代码

模型复杂度

例如，一个企业Agent收到请求：

text 复制代码

分析本月销售情况

实际执行流程可能是：

python 复制代码

crm.query()

erp.query()

report.build()

llm.reason()

email.send()

这里真正使用 GPU 的时间可能只有：

python 复制代码

llm.reason()

其余大量时间消耗在：

text 复制代码

IO
调度
缓存
状态管理

这些全部属于：

text 复制代码

CPU领域

于是：

未来Agent越多，CPU越重要。

四、KV Cache让CPU和GPU重新绑定

长上下文出现以后，行业开始遇到新的问题：

text 复制代码

KV Cache越来越大

例如：

text 复制代码

8K
32K
128K
1M

上下文增长时：

text 复制代码

KV Cache

也同步增长，很多时候：

text 复制代码

显存根本装不下

于是开始出现：

text 复制代码

CPU Memory
+
GPU Memory

协同管理模式，例如：

python 复制代码

hot_cache -> GPU

cold_cache -> CPU

当访问历史内容时：

python 复制代码

load_to_gpu()

动态迁移，这本质上就是：

text 复制代码

Memory Tiering

即：

text 复制代码

分层内存架构

未来越来越重要。

五、PagedAttention为什么改变行业

过去：

text 复制代码

KV Cache

通常连续存储，结果导致：

text 复制代码

显存碎片

越来越严重，于是出现：

text 复制代码

PagedAttention

核心思想类似：

text 复制代码

操作系统分页机制

例如：

python 复制代码

Page1

Page2

Page3

按需加载，这样：

text 复制代码

GPU负责热点数据
CPU负责冷数据

实现：

text 复制代码

CPU + GPU

协同管理上下文，很多人认为：

text 复制代码

PagedAttention

只是推理优化，其实背后反映的是：

AI系统越来越像操作系统。

六、MoE为什么天然适合异构架构

Dense Model：

text 复制代码

全部参数参与计算

而：

text 复制代码

MoE

则是：

text 复制代码

只激活部分专家

例如：

python 复制代码

router()

expert_1()

expert_7()

这里：

text 复制代码

Router

通常属于：

text 复制代码

CPU调度逻辑

而：

text 复制代码

Expert

属于：

text 复制代码

GPU计算逻辑

形成：

text 复制代码

CPU负责决策

GPU负责执行

未来超大规模 MoE 系统，越来越像：

text 复制代码

分布式调度系统

而不只是：

text 复制代码

神经网络

七、Agent时代最重要的是Runtime协同

过去推理：

text 复制代码

一次请求
一次响应

现在推理变成：

text 复制代码

持续运行

例如：

python 复制代码

while True:

    observe()

    reason()

    act()

这时候：

text 复制代码

CPU负责事件循环

例如：

python 复制代码

event_loop.run()

GPU负责：

python 复制代码

model.forward()

两者不断交替，形成：

text 复制代码

CPU ↔ GPU

持续协同模式，这也是为什么：

text 复制代码

Agent Runtime

开始成为行业热点。

八、未来推理优化将从GPU优化变成系统优化

过去优化思路：

text 复制代码

优化Kernel
优化CUDA
优化Attention

未来优化思路：

text 复制代码

优化调度
优化缓存
优化网络
优化内存

例如：

python 复制代码

scheduler.batch()

memory.pool()

cache.prefetch()

很多时候：

text 复制代码

减少一次数据搬运

带来的收益甚至超过：

text 复制代码

提升10% FLOPS

因为：

text 复制代码

系统效率

已经开始超过：

text 复制代码

计算效率

成为主要瓶颈。

九、未来数据中心会从GPU中心转向异构中心

过去数据中心架构：

text 复制代码

CPU
 ↓
GPU Cluster

未来可能变成：

text 复制代码

CPU
+
GPU
+
DPU
+
NPU
+
HBM Pool

例如：

CPU 负责：

text 复制代码

控制流

GPU 负责：

text 复制代码

计算流

DPU 负责：

text 复制代码

网络流

NPU 负责：

text 复制代码

边缘推理

形成：

text 复制代码

Heterogeneous Fabric

即：

text 复制代码

异构算力网络

未来比拼的已经不是：

text 复制代码

单个GPU

而是：

text 复制代码

整个系统协同效率

十、异构协同正在成为AI基础设施的新范式

回顾AI发展路径。

第一阶段

text 复制代码

Compute Era

关注：

text 复制代码

GPU有多强

第二阶段

text 复制代码

Model Era

关注：

text 复制代码

模型有多强

第三阶段

text 复制代码

Agent Era

关注：

text 复制代码

系统有多强

因为未来真正限制AI的，越来越不是：

text 复制代码

算不出来

而是：

text 复制代码

调不起来

不是：

text 复制代码

GPU不够

而是：

text 复制代码

资源协同效率不够

总结

很多人还在讨论：

text 复制代码

下一代GPU

但未来几年，行业最重要的问题可能已经变成：

text 复制代码

CPU如何协同GPU？

因为现代AI推理已经不再是：

text 复制代码

一次矩阵计算

而是：

text 复制代码

推理
+
缓存
+
调度
+
通信
+
状态管理

组成的复杂系统，未来真正先进的AI平台，比拼的不会只是：

text 复制代码

FLOPS

而是：

text 复制代码

CPU调度能力
GPU计算能力
Memory管理能力
Runtime协同能力

共同构成的整体效率，从这个角度看，

异构协同不是推理优化的一部分。

而是：

智能体时代 AI 基础设施的核心设计原则。

未来的 AI 数据中心，本质上不再是一堆 GPU。

而是一套持续运行、动态协同、自主调度的智能计算系统。