异构协同,算力重构:CPU+GPU架构下的AI推理优化


网罗开发 (小红书、快手、视频号同名)

  大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。

图书作者:《ESP32-C3 物联网工程开发实战》
图书作者:《SwiftUI 入门,进阶与实战》
超级个体:COC上海社区主理人
特约讲师:大学讲师,谷歌亚马逊分享嘉宾
科技博主:华为HDE/HDG

我的博客内容涵盖广泛,主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验 。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告,同时也会提供产品优缺点分析、横向对比,并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。

展菲:您的前沿技术领航员

👋 大家好,我是展菲!

📱 全网搜索"展菲",即可纵览我在各大平台的知识足迹。

每周定时推送干货满满的技术长文,从新兴框架的剖析到运维实战的复盘,助您技术进阶之路畅通无阻。

文章目录

引言

过去几年,AI 基础设施领域有一个非常普遍的认知:

text 复制代码
GPU决定AI能力

于是整个行业的关注点几乎都集中在:

text 复制代码
更强GPU
更大显存
更高带宽

演进之路是:

text 复制代码
V100
A100
H100
B200
GB200

很多企业建设 AI 平台时,最先关注的往往也是:

text 复制代码
买多少GPU

但随着大模型逐渐进入生产环境,一个越来越现实的问题开始出现:

text 复制代码
GPU越来越强
推理效率却没有同步提升

很多团队会发现:

text 复制代码
GPU利用率只有30%
~50%

而与此同时:

text 复制代码
CPU已经满载

甚至出现的现象是:

text 复制代码
GPU等待CPU

于是行业开始意识到:

AI推理的瓶颈,已经不再只是GPU。

而是:

text 复制代码
CPU
+
GPU
+
Memory
+
Network
+
Runtime

共同构成的系统问题,换句话说:

未来AI推理优化,本质上是一场异构协同优化。

而不是单纯的 GPU 优化。

一、为什么GPU越来越强,推理却没有线性增长

很多人理想中的推理过程是:

text 复制代码
Prompt
 ↓
GPU
 ↓
Answer

似乎 GPU 就完成了全部工作,但真实系统里实际上是:

text 复制代码
Request
 ↓
CPU解析
 ↓
Token预处理
 ↓
GPU推理
 ↓
CPU后处理
 ↓
返回结果

例如:

python 复制代码
tokens = tokenizer.encode(prompt)

gpu.forward(tokens)

result = tokenizer.decode(output)

这里:

text 复制代码
Tokenizer

本身就运行在 CPU,而且随着上下文越来越长:

text 复制代码
32K
128K
1M Context

CPU 开销也越来越大,因此很多场景下:

text 复制代码
GPU不是瓶颈
CPU才是瓶颈

二、推理系统到底在消耗什么资源

很多人认为:

text 复制代码
推理
=
矩阵计算

实际上现代 AI 推理包含四部分。

第一部分

text 复制代码
Pre-processing

例如:

python 复制代码
tokenizer.encode()

prompt.build()

template.render()

全部由 CPU 完成。

第二部分

text 复制代码
Inference

例如:

python 复制代码
attention()

matmul()

ffn()

主要由 GPU 执行。

第三部分

text 复制代码
Post-processing

例如:

python 复制代码
tokenizer.decode()

json.parse()

response.format()

依然属于 CPU 工作。

第四部分

text 复制代码
Runtime Scheduling

例如:

python 复制代码
queue.schedule()

batch.merge()

cache.route()

同样由 CPU 控制,所以真正的推理链路其实是:

text 复制代码
CPU
 ↓
GPU
 ↓
CPU
 ↓
Runtime

而不是:

text 复制代码
GPU
 ↓
GPU
 ↓
GPU

三、为什么CPU开始重新变得重要

训练时代:

text 复制代码
GPU负责99%

CPU更多是辅助角色,但Agent时代出现以后:

text 复制代码
任务复杂度

远远超过:

text 复制代码
模型复杂度

例如,一个企业Agent收到请求:

text 复制代码
分析本月销售情况

实际执行流程可能是:

python 复制代码
crm.query()

erp.query()

report.build()

llm.reason()

email.send()

这里真正使用 GPU 的时间可能只有:

python 复制代码
llm.reason()

其余大量时间消耗在:

text 复制代码
IO
调度
缓存
状态管理

这些全部属于:

text 复制代码
CPU领域

于是:

未来Agent越多,CPU越重要。

四、KV Cache让CPU和GPU重新绑定

长上下文出现以后,行业开始遇到新的问题:

text 复制代码
KV Cache越来越大

例如:

text 复制代码
8K
32K
128K
1M

上下文增长时:

text 复制代码
KV Cache

也同步增长,很多时候:

text 复制代码
显存根本装不下

于是开始出现:

text 复制代码
CPU Memory
+
GPU Memory

协同管理模式,例如:

python 复制代码
hot_cache -> GPU

cold_cache -> CPU

当访问历史内容时:

python 复制代码
load_to_gpu()

动态迁移,这本质上就是:

text 复制代码
Memory Tiering

即:

text 复制代码
分层内存架构

未来越来越重要。

五、PagedAttention为什么改变行业

过去:

text 复制代码
KV Cache

通常连续存储,结果导致:

text 复制代码
显存碎片

越来越严重,于是出现:

text 复制代码
PagedAttention

核心思想类似:

text 复制代码
操作系统分页机制

例如:

python 复制代码
Page1

Page2

Page3

按需加载,这样:

text 复制代码
GPU负责热点数据
CPU负责冷数据

实现:

text 复制代码
CPU + GPU

协同管理上下文,很多人认为:

text 复制代码
PagedAttention

只是推理优化,其实背后反映的是:

AI系统越来越像操作系统。

六、MoE为什么天然适合异构架构

Dense Model:

text 复制代码
全部参数参与计算

而:

text 复制代码
MoE

则是:

text 复制代码
只激活部分专家

例如:

python 复制代码
router()

expert_1()

expert_7()

这里:

text 复制代码
Router

通常属于:

text 复制代码
CPU调度逻辑

而:

text 复制代码
Expert

属于:

text 复制代码
GPU计算逻辑

形成:

text 复制代码
CPU负责决策

GPU负责执行

未来超大规模 MoE 系统,越来越像:

text 复制代码
分布式调度系统

而不只是:

text 复制代码
神经网络

七、Agent时代最重要的是Runtime协同

过去推理:

text 复制代码
一次请求
一次响应

现在推理变成:

text 复制代码
持续运行

例如:

python 复制代码
while True:

    observe()

    reason()

    act()

这时候:

text 复制代码
CPU负责事件循环

例如:

python 复制代码
event_loop.run()

GPU负责:

python 复制代码
model.forward()

两者不断交替,形成:

text 复制代码
CPU ↔ GPU

持续协同模式,这也是为什么:

text 复制代码
Agent Runtime

开始成为行业热点。

八、未来推理优化将从GPU优化变成系统优化

过去优化思路:

text 复制代码
优化Kernel
优化CUDA
优化Attention

未来优化思路:

text 复制代码
优化调度
优化缓存
优化网络
优化内存

例如:

python 复制代码
scheduler.batch()

memory.pool()

cache.prefetch()

很多时候:

text 复制代码
减少一次数据搬运

带来的收益甚至超过:

text 复制代码
提升10% FLOPS

因为:

text 复制代码
系统效率

已经开始超过:

text 复制代码
计算效率

成为主要瓶颈。

九、未来数据中心会从GPU中心转向异构中心

过去数据中心架构:

text 复制代码
CPU
 ↓
GPU Cluster

未来可能变成:

text 复制代码
CPU
+
GPU
+
DPU
+
NPU
+
HBM Pool

例如:

CPU 负责:

text 复制代码
控制流

GPU 负责:

text 复制代码
计算流

DPU 负责:

text 复制代码
网络流

NPU 负责:

text 复制代码
边缘推理

形成:

text 复制代码
Heterogeneous Fabric

即:

text 复制代码
异构算力网络

未来比拼的已经不是:

text 复制代码
单个GPU

而是:

text 复制代码
整个系统协同效率

十、异构协同正在成为AI基础设施的新范式

回顾AI发展路径。

第一阶段

text 复制代码
Compute Era

关注:

text 复制代码
GPU有多强

第二阶段

text 复制代码
Model Era

关注:

text 复制代码
模型有多强

第三阶段

text 复制代码
Agent Era

关注:

text 复制代码
系统有多强

因为未来真正限制AI的,越来越不是:

text 复制代码
算不出来

而是:

text 复制代码
调不起来

不是:

text 复制代码
GPU不够

而是:

text 复制代码
资源协同效率不够

总结

很多人还在讨论:

text 复制代码
下一代GPU

但未来几年,行业最重要的问题可能已经变成:

text 复制代码
CPU如何协同GPU?

因为现代AI推理已经不再是:

text 复制代码
一次矩阵计算

而是:

text 复制代码
推理
+
缓存
+
调度
+
通信
+
状态管理

组成的复杂系统,未来真正先进的AI平台,比拼的不会只是:

text 复制代码
FLOPS

而是:

text 复制代码
CPU调度能力
GPU计算能力
Memory管理能力
Runtime协同能力

共同构成的整体效率,从这个角度看,

异构协同不是推理优化的一部分。

而是:

智能体时代 AI 基础设施的核心设计原则。

未来的 AI 数据中心,本质上不再是一堆 GPU。

而是一套持续运行、动态协同、自主调度的智能计算系统。

相关推荐
调试优选官1 小时前
2026上海AI搜索GEO排名优化:技术路径与服务能力解析
人工智能·ai·geo·上海
心之伊始1 小时前
Spring Boot Actuator + Micrometer 自定义业务指标:不只是健康检查
java·架构·源码分析·csdn
AI分享猿1 小时前
编程教育的新篇章:AI工具如何改变教学方式
人工智能
Tiansan66661 小时前
AI问答推广:郑州本地企业如何用技术提升40%转化率
人工智能·ai问答推广郑州本地
玩转单片机与嵌入式1 小时前
AI 推理会不会堵住实时任务?MCU 上跑模型时,RTOS 和 DMA 该怎么配合?
人工智能·单片机·嵌入式硬件
张彦峰ZYF1 小时前
LangGraph 条件边:让 AI Agent 学会“做选择”
人工智能·大模型·langgraph
ZFSS1 小时前
BYOK(自带密钥)使用指南
运维·服务器·前端·人工智能·midjourney
xiangw@GZ1 小时前
ARM TCM 紧耦合内存与 Cache 架构区别
arm开发·架构
装不满的克莱因瓶1 小时前
掌握典型卷积神经网络的搭建
人工智能·python·深度学习·神经网络·机器学习·ai·cnn