ops-conv:卷积算子从 CPU 到昇腾 NPU 的优化之路

Transformer 出现之前,Conv 是 AI 计算的绝对核心。ResNet、EfficientNet、YOLO------所有视觉模型的计算量 90% 来自卷积。即使到了 Transformer 时代,视觉 Transformer(ViT)用 Self-Attention 替代了卷积,但图像预处理链路中依然需要 Conv 算子。

CANN 的 ops-conv 仓库管着卷积算子的实现。卷积的优化思路跟 GEMM 类似------Tile 分块、Cube Unit 执行、L1 复用------但卷积的滑动窗口模式让数据复用方式跟 GEMM 不同。


卷积为什么曾经是 AI 核心

卷积的本质是滑动窗口的加权求和。输入 Feature Map [B, C, H, W] 经过卷积核 [K, C, R, S] 的输出是 [B, K, H_out, W_out]

计算量 ≈ B × K × C × H_out × W_out × R × S。一个 3×3 卷积在 224×224 图像上的计算量约 1.2G FLOPs。


昇腾NPU如何执行卷积

Conv 在 Cube Unit 上执行。Cube Unit 做 16×16 的矩阵乘------卷积的滑动窗口操作被展开成矩阵形式(im2col),然后走 Cube Unit 的 GEMM 路径:

复制代码
输入 Feature Map:切成 16×16 的 Tile
卷积核:每个输入通道的 3×3 窗口展成 9 个元素
        所有通道的窗口展成 9×C 的矩阵
Cube Unit:输入 Tile × 卷积核矩阵 → 输出 Tile
重复以上步骤直到所有窗口计算完成

im2col 展开会增加临时显存占用------3×3 卷积的展开因子是 9 倍。ops-conv 的优化是不做完全展开------每次只展开当前 Tile 需要的窗口数据,展开后的矩阵直接送 Cube Unit,不写 DDR。


Tile 分块为什么关键

卷积的 Tile 分块跟 GEMM 不同------卷积的输入 Tile 在滑动窗口时重叠。相邻的两个卷积窗口共享 (R-1)×W 个输入元素。好的 Tile 策略可以最大化这部分数据的复用:

复制代码
不优化:每个窗口独立搬入输入数据
  窗口 1:搬入 [16×16] → 计算 → 写回
  窗口 2:搬入 [16×16](跟前一个窗口有 15×16 的重叠)→ 计算

优化(overlap-aware tiling):
  窗口 1:搬入 [16+R-1, 16] → 计算输出窗口 1 和 2
  窗口 2:不需要搬运------数据已经在 L1 上了

ops-conv 的 overlap-aware Tiling 在 3×3 卷积上可以减少 30% 的输入数据搬运量。


CNN 与 Transformer 的性能差异

CNN 的 Conv 算子和 Transformer 的 GEMM 在 NPU 上的 Cube 利用率不同:

算子类型 Cube 利用率 主要瓶颈
大 GEMM (M=4096) 85% 搬运带宽
3×3 Conv (224×224) 65% im2col 展开开销
7×7 Conv (小 Feature Map) 45% Tile 碎片

CNN 在小 Feature Map 上的利用率下降因为 Tile 中的有效计算占比低------边缘窗口的 Tile 数据填充降低了 Cube Unit 的有效利用率。

ops-conv 的 Winograd 优化

3×3 卷积除了 Tile 优化外还有 Winograd 算法。Winograd 把输入和卷积核变换到 Winograd 域------在域中做的乘法次数比原始卷积少。3×3 卷积的 Winograd 变换可以节省约 36% 的乘法。

ops-conv 在 Ascend 910 上对 3×3 卷积实现了 Winograd 优化:输入 Feature Map 和 3×3 核变换到 4×4 的 Winograd 域后做 16 次乘法------原始 3×3 卷积要 9 次乘法------但 Winograd 的 16 次乘法可用 Cube Unit 一次搞定,实际吞吐高于 9 次独立的 MAC 操作。

Winograd 的适用场景:3×3 卷积且特征图尺寸较大(H,W > 16)。小特征图的 Winograd 变换开销占比大------ops-conv 对小特征图自动切换到普通 im2col+GEMM 路径。

CNN 推理的性能分布

ResNet-50 在昇腾上的推理延迟分解:

算子类型 延迟占比 Cube 利用率
3×3 Conv 55% 65%
1×1 Conv 25% 78%
ReLU+BN 等 12% N/A(Vector)
Pooling 5% N/A
FC 3% 45%

3×3 卷积是绝对主力。1×1 卷积的 Cube 利用率更高因为 Tile 计算更规整。

参考仓库

ops-conv 卷积算子库

GEMM 矩阵乘优化指南

相关推荐
HIT_Weston3 小时前
92、【Agent】【OpenCode】edit 工具提示词
人工智能·agent·opencode
Shan12053 小时前
机器学习评价指标之基础指标与综合指标
人工智能·机器学习
硅谷秋水3 小时前
智体Harness工程:综述(下)
人工智能·深度学习·机器学习·语言模型
KaMeidebaby3 小时前
卡梅德生物技术快报|抗独特型抗体开发:半抗原检测技术瓶颈拆解,抗独特型抗体开发工程化实践
前端·数据库·人工智能·其他·百度·新浪微博
NiceCloud喜云3 小时前
Claude Files API 深入:从上传、复用到配额管理的工程化指南
android·java·数据库·人工智能·python·json·飞书
oo哦哦3 小时前
2026年多平台内容管理系统技术选型:从架构设计到工程落地
人工智能·线性代数·矩阵
Gongxiangqishou3 小时前
县域即时配送订单规模同比增长35%,远超一线城市的22%
大数据·人工智能
Raink老师3 小时前
【AI面试临阵磨枪-59】企业内部 AI 系统权限、数据隔离、审计设计
人工智能·面试·职场和发展