ops-math 算子库的扩展能力：高精度与复数运算的硬件映射策略

CANN 组织链接 ： https://atomgit.com/cann
ops-math 仓库链接 ： https://gitcode.com/cann/ops-math

ops-math 主要关注 FP32、BF16 和 FP16 的高效计算。NPU Vector Unit 的设计通常是针对这些精度进行硬件优化的。

尽管深度学习倾向于使用低精度，但部分模型（如某些优化器步骤或特定归一化）仍需要 FP32 精度。

Vector Unit 兼容性 ：FP32 运算在 Vector Unit 上通常以 FP16 算子的两倍周期 执行，或者，如果硬件设计支持，则可能以 FP32 模式 发射指令，但通常吞吐量会减半。ops-math 确保 FP32 版本的实现逻辑保持与 FP16 兼容，以便 GE 在决定使用最高精度时能无缝切换。

某些高级算法（如傅里叶变换或特定频域处理）可能需要复数运算。

软件模拟 ：如果 NPU 硬件没有原生支持复数运算指令，ops-math 通常通过软件模拟 来实现：将复数 a + i b a+ib a+ib 拆分为两个独立的 FP16 或 FP32 向量（实部和虚部），然后利用现有的向量化 Mul, Add 算子，遵循复数乘法规则 ( a + i b ) ( c + i d ) = ( a c − b d ) + i ( a d + b c ) (a+ib)(c+id) = (ac-bd) + i(ad+bc) (a+ib)(c+id)=(ac−bd)+i(ad+bc) 进行操作。

基础数学函数如 Log 和 Exp 的精度通常由其硬件电路决定，而 ops-math 通过编译时配置来选择最佳实现。

对数函数的硬件实现同样依赖于查找表和多项式逼近。

精度与表大小 ：在 FP16 精度下，对数函数的精度要求低于 FP32。ops-math 存储的 LUT（查找表）尺寸会相应减小，以适应 Local Memory 的容量，并加速 LUT 的加载时间。

当自定义算子（Ascend C）需要实现如 Sigmoid ( x ) = 1 / ( 1 + e − x ) \text{Sigmoid}(x) = 1 / (1 + e^{-x}) Sigmoid(x)=1/(1+e−x) 这样的组合函数时，它直接复用：

这种复用保证了自定义函数继承了硬件层对这些基础操作的最优性能和精度特性。

Profiler 工具在分析 ops-math 密集型核函数时，关注点在于 Vector Unit 的延迟与吞吐量。

指令吞吐率 ：性能分析会量化执行特定数学函数（如 Tanh \text{Tanh} Tanh）的平均周期数。如果该周期数高于硬件文档中报告的理论最小周期，则表明存在数据依赖未被掩盖（流水线中断）。

CANN 组织链接 ： https://atomgit.com/cann
ops-math 仓库链接 ： https://gitcode.com/cann/ops-math