构建自定义算子库：基于ops-nn和aclnn两阶段模式的创新指南

在深度学习模型的落地过程中，通用算子库往往难以满足特定场景对性能、精度或功能的定制化需求。无论是新型激活函数、领域专用融合操作，还是硬件亲和的内存优化策略，开发者常常需要构建自定义算子以突破性能瓶颈或实现创新算法。

CANN 开源社区提供的 ops-nn 项目，正是为这一需求打造的高性能神经网络基础算子库。它不仅包含大量优化后的标准算子（如 Conv、MatMul、Softmax），更重要的是，其设计遵循 aclnn 两阶段执行模式（Prepare + Enqueue），为开发者提供了清晰、高效、可扩展的自定义算子开发范式。本文将深入解析 ops-nn 的架构思想，并通过完整代码示例，手把手指导如何基于 aclnn 两阶段模式构建自己的高性能算子库。

cann组织链接 ：https://atomgit.com/cann
ops-nn仓库链接：https://atomgit.com/cann/ops-nn

一、为什么选择 ops-nn 作为起点？

ops-nn 是 CANN 生态中面向通用神经网络计算的核心算子库，具有以下优势：

✅ 高性能实现：所有算子均针对底层硬件进行深度优化；
✅ 统一接口规范 ：采用 aclnn 命名空间下的标准化 API；
✅ 两阶段执行模型：分离"资源规划"与"异步执行"，提升调度效率；
✅ 内存管理抽象 ：通过 aclTensor 统一封装数据布局与内存类型；
✅ 开箱即用的工具链 ：提供算子测试框架 ascendoptest 与性能分析工具。

更重要的是，ops-nn 的代码结构本身就是一份最佳实践模板，非常适合用于衍生自定义算子项目。

二、aclnn 两阶段模式详解

传统算子调用通常是"同步阻塞"式：

cpp 复制代码

result = matmul(A, B); // 等待执行完成才返回

而 aclnn 两阶段模式将其拆分为两个步骤：

阶段一：Prepare（准备）

分析输入张量形状、数据类型、内存布局；
计算所需临时内存大小；
生成内核启动参数；
不执行实际计算，仅做元信息规划。

阶段二：Enqueue（入队）

将计算任务提交到指定流（Stream）；
异步执行，立即返回；
可与其他计算/通信任务重叠。

这种设计的优势在于：

支持提前规划内存池，避免运行时分配；
允许计算图编译期优化；
实现真正的异步流水线。

三、实战：开发一个自定义融合算子 `GeluMatmul`

假设我们需要一个融合算子：Y = Gelu(X) @ W，以减少中间激活值的内存写回。

3.1 定义算子接口

首先，在头文件中声明两阶段函数：

cpp 复制代码

// custom_ops.h
#include "acl/acl_nn.h"

// 阶段一：查询所需临时内存大小
aclnnStatus aclnnGeluMatmulGetWorkspaceSize(
    const aclTensor* input,
    const aclTensor* weight,
    aclTensor* output,
    uint64_t* workspaceSize,
    aclOpExecutor** executor
);

// 阶段二：执行计算
aclnnStatus aclnnGeluMatmul(
    const aclTensor* input,
    const aclTensor* weight,
    aclTensor* output,
    void* workspace,
    uint64_t workspaceSize,
    aclOpExecutor* executor,
    aclrtStream stream
);

3.2 实现 Prepare 阶段

cpp 复制代码

// custom_ops.cpp
aclnnStatus aclnnGeluMatmulGetWorkspaceSize(
    const aclTensor* input,
    const aclTensor* weight,
    aclTensor* output,
    uint64_t* workspaceSize,
    aclOpExecutor** executor) {
    
    // 1. 验证输入合法性（形状、dtype等）
    ACLNN_CHECK_SHAPE(input, {B, M});
    ACLNN_CHECK_SHAPE(weight, {M, N});
    ACLNN_CHECK_DTYPE(input, ACL_FLOAT16);
    
    // 2. 创建执行器（封装内核参数）
    *executor = new GeluMatmulExecutor(input, weight, output);
    
    // 3. 查询临时内存需求（本例中无需额外workspace）
    *workspaceSize = 0;
    
    return ACL_SUCCESS;
}

3.3 实现 Enqueue 阶段

cpp 复制代码

aclnnStatus aclnnGeluMatmul(
    const aclTensor* input,
    const aclTensor* weight,
    aclTensor* output,
    void* workspace,
    uint64_t workspaceSize,
    aclOpExecutor* executor,
    aclrtStream stream) {
    
    // 1. 获取执行器
    auto* exec = static_cast<GeluMatmulExecutor*>(executor);
    
    // 2. 提交Kernel到Stream（异步）
    LaunchGeluMatmulKernel(
        exec->input_ptr(),
        exec->weight_ptr(),
        exec->output_ptr(),
        exec->M(), exec->N(), exec->K(),
        stream
    );
    
    // 3. 注意：此处不等待完成！
    return ACL_SUCCESS;
}

3.4 Kernel 实现（伪代码）

cpp 复制代码

__global__ void GeluMatmulKernel(...) {
    // 分块计算 X @ W
    for (int tile = 0; tile < num_tiles; ++tile) {
        LoadTileX(x_tile);
        LoadTileW(w_tile);
        
        // 在寄存器中计算 Gelu(x) * w
        for (int i = 0; i < TILE_M; ++i) {
            float x_val = x_tile[i];
            float gelu_val = x_val * 0.5f * (1.0f + tanh(...)); // Gelu
            acc[i] += gelu_val * w_tile[i];
        }
    }
    StoreOutput(acc);
}

关键点 ：Gelu 与 Matmul 融合，中间结果不写回全局内存。

四、集成到推理引擎

在模型推理中调用自定义算子：

cpp 复制代码

// inference_engine.cpp
void RunCustomLayer(aclTensor* hidden, aclTensor* weight, aclrtStream stream) {
    aclTensor* output = CreateOutputTensor(hidden, weight);
    
    // 1. Prepare
    uint64_t workspaceSize = 0;
    aclOpExecutor* executor = nullptr;
    aclnnGeluMatmulGetWorkspaceSize(hidden, weight, output, &workspaceSize, &executor);
    
    // 2. Enqueue
    aclnnGeluMatmul(hidden, weight, output, nullptr, workspaceSize, executor, stream);
    
    // 3. 后续操作可立即提交（流水线）
    NextLayer(output, stream);
    
    // 4. 清理（注意：executor 生命周期需管理）
    delete executor;
}

五、测试与验证

使用 CANN 提供的 ascendoptest 工具验证算子正确性：

bash 复制代码

# 编写测试用例 test_gelu_matmul.json
{
  "op": "GeluMatmul",
  "inputs": [
    {"shape": [2, 1024], "dtype": "float16"},
    {"shape": [1024, 4096], "dtype": "float16"}
  ],
  "outputs": [{"shape": [2, 4096], "dtype": "float16"}]
}

# 执行测试
ascendoptest --case=test_gelu_matmul.json --lib=libcustom_ops.so

六、性能收益与最佳实践

内存节省：融合算子可减少 30%~50% 的中间内存占用；
延迟降低：消除一次全局内存读写，端到端延迟下降 15%+；
最佳实践 ：
1. 优先复用 ops-nn 中的内存管理工具（如 aclCreateTensor）；
2. 所有自定义算子应遵循 aclnn 命名与参数顺序规范；
3. 使用 CANN Profiling 工具分析 Kernel 利用率；
4. 对标 ops-nn 中的同类算子（如 aclnnMatmul）进行性能对比。

七、结语

基于 ops-nn 和 aclnn 两阶段模式构建自定义算子库，不仅是性能优化的有效手段，更是参与 CANN 生态共建的重要途径。通过遵循其设计范式，开发者既能获得接近硬件极限的执行效率，又能确保与 CANN 上层框架（如推理引擎、训练系统）无缝集成。未来，随着更多创新算子的涌现，这一模式将成为推动 AI 应用高效落地的核心引擎。

cann组织链接 ：https://atomgit.com/cann
ops-nn仓库链接：https://atomgit.com/cann/ops-nn

构建自定义算子库：基于ops-nn和aclnn两阶段模式的创新指南