ops-conv:卷积算子从 CPU 到昇腾 NPU 的优化之路

Transformer 出现之前,Conv 是 AI 计算的绝对核心。ResNet、EfficientNet、YOLO------所有视觉模型的计算量 90% 来自卷积。即使到了 Transformer 时代,视觉 Transformer(ViT)用 Self-Attention 替代了卷积,但图像预处理链路中依然需要 Conv 算子。

CANN 的 ops-conv 仓库管着卷积算子的实现。卷积的优化思路跟 GEMM 类似------Tile 分块、Cube Unit 执行、L1 复用------但卷积的滑动窗口模式让数据复用方式跟 GEMM 不同。


卷积为什么曾经是 AI 核心

卷积的本质是滑动窗口的加权求和。输入 Feature Map [B, C, H, W] 经过卷积核 [K, C, R, S] 的输出是 [B, K, H_out, W_out]

计算量 ≈ B × K × C × H_out × W_out × R × S。一个 3×3 卷积在 224×224 图像上的计算量约 1.2G FLOPs。


昇腾NPU如何执行卷积

Conv 在 Cube Unit 上执行。Cube Unit 做 16×16 的矩阵乘------卷积的滑动窗口操作被展开成矩阵形式(im2col),然后走 Cube Unit 的 GEMM 路径:

复制代码
输入 Feature Map:切成 16×16 的 Tile
卷积核:每个输入通道的 3×3 窗口展成 9 个元素
        所有通道的窗口展成 9×C 的矩阵
Cube Unit:输入 Tile × 卷积核矩阵 → 输出 Tile
重复以上步骤直到所有窗口计算完成

im2col 展开会增加临时显存占用------3×3 卷积的展开因子是 9 倍。ops-conv 的优化是不做完全展开------每次只展开当前 Tile 需要的窗口数据,展开后的矩阵直接送 Cube Unit,不写 DDR。


Tile 分块为什么关键

卷积的 Tile 分块跟 GEMM 不同------卷积的输入 Tile 在滑动窗口时重叠。相邻的两个卷积窗口共享 (R-1)×W 个输入元素。好的 Tile 策略可以最大化这部分数据的复用:

复制代码
不优化:每个窗口独立搬入输入数据
  窗口 1:搬入 [16×16] → 计算 → 写回
  窗口 2:搬入 [16×16](跟前一个窗口有 15×16 的重叠)→ 计算

优化(overlap-aware tiling):
  窗口 1:搬入 [16+R-1, 16] → 计算输出窗口 1 和 2
  窗口 2:不需要搬运------数据已经在 L1 上了

ops-conv 的 overlap-aware Tiling 在 3×3 卷积上可以减少 30% 的输入数据搬运量。


CNN 与 Transformer 的性能差异

CNN 的 Conv 算子和 Transformer 的 GEMM 在 NPU 上的 Cube 利用率不同:

算子类型 Cube 利用率 主要瓶颈
大 GEMM (M=4096) 85% 搬运带宽
3×3 Conv (224×224) 65% im2col 展开开销
7×7 Conv (小 Feature Map) 45% Tile 碎片

CNN 在小 Feature Map 上的利用率下降因为 Tile 中的有效计算占比低------边缘窗口的 Tile 数据填充降低了 Cube Unit 的有效利用率。

ops-conv 的 Winograd 优化

3×3 卷积除了 Tile 优化外还有 Winograd 算法。Winograd 把输入和卷积核变换到 Winograd 域------在域中做的乘法次数比原始卷积少。3×3 卷积的 Winograd 变换可以节省约 36% 的乘法。

ops-conv 在 Ascend 910 上对 3×3 卷积实现了 Winograd 优化:输入 Feature Map 和 3×3 核变换到 4×4 的 Winograd 域后做 16 次乘法------原始 3×3 卷积要 9 次乘法------但 Winograd 的 16 次乘法可用 Cube Unit 一次搞定,实际吞吐高于 9 次独立的 MAC 操作。

Winograd 的适用场景:3×3 卷积且特征图尺寸较大(H,W > 16)。小特征图的 Winograd 变换开销占比大------ops-conv 对小特征图自动切换到普通 im2col+GEMM 路径。

CNN 推理的性能分布

ResNet-50 在昇腾上的推理延迟分解:

算子类型 延迟占比 Cube 利用率
3×3 Conv 55% 65%
1×1 Conv 25% 78%
ReLU+BN 等 12% N/A(Vector)
Pooling 5% N/A
FC 3% 45%

3×3 卷积是绝对主力。1×1 卷积的 Cube 利用率更高因为 Tile 计算更规整。

参考仓库

ops-conv 卷积算子库

GEMM 矩阵乘优化指南

相关推荐
毒爪的小新5 分钟前
Linux 环境极速部署 vLLM:从零搭建生产级大模型推理服务
linux·人工智能·ai·语言模型·vllm
老大白菜6 分钟前
25美元,DIY开源可穿戴智能AI眼镜:Arduino+乐鑫ESP32+DeepSeek项目
人工智能
DreamLife☼25 分钟前
OpenBCI-脑机接口在康复医疗中的应用
深度学习·cnn·脑电·康复·fes·openbci·外骨骼
岁月宁静1 小时前
RAG 文档摄入全链路,从原理到生产落地
vue.js·人工智能·python
小和尚同志1 小时前
AI 自动化测试探索(一):Playwright MCP
前端·人工智能·aigc
硅谷秋水1 小时前
面向长上下文自动驾驶的规划对齐Token压缩
人工智能·深度学习·机器学习·计算机视觉·自动驾驶
郭泽斌之心1 小时前
MQL5 EA 怎么和外部程序通信?文件三件套协议:参数热更新不重启、状态心跳、远程触发
人工智能·经验分享·深度学习·ea·fay数字人·easydeal
mit6.8241 小时前
“泄露了windows12“
人工智能
AI人工智能+1 小时前
智能文档抽取系统以专业的文档解析底座和大模型智能语义理解能力为核心,洞察文档的语义内涵与逻辑结构
深度学习·自然语言处理·ocr·文档抽取