CANN 组织链接 : https://atomgit.com/cann
PyPTO 仓库链接 : https://gitcode.com/cann/pypto
1. 稀疏计算在深度学习中的需求与 ops-nn 的初步支持
随着模型结构向更深、更稀疏的方向发展,处理非结构化或结构化稀疏数据成为提升效率的有效手段。
1.1 稀疏数据的挑战
稀疏矩阵运算(如在剪枝后的网络中)的主要挑战在于:
- 非连续访问:数据在全局内存中分布稀疏,使得 DMA 引擎难以高效地以大块连续方式传输。
- 计算单元利用率:Cube Unit 必须被编程为仅对非零元素执行计算,否则会浪费大量的计算周期在乘零操作上。
1.2 ops-nn 对稀疏算子的支持
ops-nn 库针对特定稀疏格式(如 CSR/COO)提供了专用算子。这些算子在内部实现中:
- 索引依赖:它们依赖于索引数组来定位非零值,并在 Tiling 阶段确保索引数据也能够高效地被加载到本地内存。
- 硬件映射:稀疏矩阵乘法(SpGEMM)被映射到 Cube Unit,但其调度机制与稠密矩阵乘法(MatMulV3)的调度完全不同,它必须频繁地查询索引信息。
2. PyPTO 范式:超越原子操作的抽象层次
PyPTO (Parallel Tensor/Tile Operation) 范式代表了 CANN 算子开发抽象层次的提升,它旨在将复杂的内存调度和流水线控制自动化。
2.1 Tiling 的自动管理
与 Ascend C 需要开发者显式管理 Tiling 迭代次数和 blockLength 不同,PyPTO 范式更强调张量视图(Tensor View)的定义。
- 声明式 Tiling :开发者使用 PyPTO 的 API 声明目标 Tile 尺寸和内存布局要求。调度器(Scheduler)负责根据这些声明,自动计算出最优的
tileNum和blockLength,并生成底层的 DMA 传输指令。
2.2 统一的流水线抽象
PyPTO 封装了双缓冲机制,开发者无需直接操作 TPipe 对象和同步信号量。
- 计算-传输重叠 :通过声明数据在本地内存中的角色(Input Tile, Output Tile),PyPTO 调度器自动插入
CopyIn和CopyOut操作,并确保它们与Compute操作在硬件流水线上精确对齐。
cpp
// PyPTO 抽象层级示例(概念性)
Tensor tileA = pipe.GetInputTile(buffer_id, tile_index);
Tensor tileB = pipe.GetInputTile(buffer_id, tile_index);
// 计算指令自动与 CopyIn 异步执行
Tensor resultTile = Compute.MatMul(tileA, tileB);
pipe.CommitOutputTile(resultTile, next_buffer_id);
3. 稀疏计算与 PyPTO 的潜在集成
将 PyPTO 的自动化调度能力应用于稀疏计算是进一步提升性能的关键方向。
3.1 稀疏数据流的建模
将稀疏矩阵运算映射到 PyPTO 框架,需要新的数据结构来描述稀疏性:
- 索引本地化:稀疏算子的索引数据(如 COO 格式的 Row/Col Index)必须被视为高优先级数据,并优先加载到本地内存。PyPTO 需要支持加载非连续的索引块。
- 计算指令的条件化:PyPTO 的核心计算指令需要在内部实现条件跳转或掩码操作,确保只有索引指示的非零值才会被送入 Cube Unit 进行乘积累加。
3.2 内存带宽的精细控制
对于稀疏操作,带宽利用率通常低于稠密操作。PyPTO 的优势在于能够更精细地控制 DMA 事务。
- 事务粒度:调度器可以根据稀疏度动态调整 DMA 事务的大小。如果当前 Tile 的非零元素数量很少,则 DMA 事务的粒度可以更小,以减少本地内存中存储零值数据的空间浪费。
4. 总结
CANN 的算子生态正朝着更高的抽象层次发展。ops-nn 提供了最优的稠密算子基线;Ascend C 提供了底层控制;而 PyPTO 范式则通过声明式的 API,旨在将 Tiling、流水线和内存管理自动化,特别是在处理稀疏数据流等复杂场景时,能够提供更易于开发、更具可移植性的高性能解决方案。
CANN 组织链接 : https://atomgit.com/cann
PyPTO 仓库链接 : https://gitcode.com/cann/pypto