探索昇腾底层逻辑：从ops-nn视角解读aclnn两阶段设计理念

在AI异构计算架构的技术体系中，算子的高效执行与框架的灵活对接是实现计算效率最大化的核心，而aclnn作为CANN（Compute Architecture for Neural Networks）异构计算架构的核心编程接口，其两阶段设计理念成为连接底层算子实现与上层AI框架调用的关键纽带。ops-nn作为CANN生态中核心的神经网络类计算算子库，是aclnn两阶段设计理念的重要落地载体，其所有算子的开发、封装与调用均严格遵循这一设计逻辑，让神经网络算子在异构计算硬件上的执行效率与开发灵活性实现了双重提升。

本文以CANN仓库为背景，从ops-nn算子库的实现视角出发，深度解析aclnn两阶段设计理念的核心内涵、设计初衷与技术价值，拆解两阶段设计在ops-nn算子开发与调用中的具体落地方式，结合算子实现的核心逻辑展示两阶段设计如何解决异构计算中算子执行的效率与灵活性难题，让开发者从底层算子视角理解aclnn设计的核心逻辑。

一、aclnn两阶段设计理念的核心内涵与设计初衷

在异构计算的技术体系中，AI算子的执行往往涉及算子构建 与算子执行 两个核心环节，传统的算子调用模式将二者耦合在一起，在面对复杂神经网络计算、多批次推理、动态计算图等场景时，会产生显著的性能损耗与开发灵活性问题。aclnn基于CANN异构计算的核心需求，提出了**"构建（Build）-执行（Execute）"两阶段设计理念**，将算子的构建与执行环节完全解耦，形成独立且协同的两个阶段，而这一设计的初衷，正是为了解决异构计算中算子调用的性能瓶颈 与开发痛点。

1.1 两阶段设计的核心内涵

aclnn的两阶段设计将算子的全生命周期拆分为构建阶段 与执行阶段，两个阶段各司其职、相互独立，同时通过标准化的接口实现数据与资源的协同：

构建阶段（Build Phase） ：聚焦算子的静态逻辑解析与资源预配置 ，在该阶段完成算子的计算逻辑校验、输入输出张量形状推导、硬件资源预分配、计算策略优化、执行计划生成等核心工作，生成可复用的算子执行计划（Plan）。该阶段仅需执行一次，生成的执行计划可被多次执行阶段调用；
执行阶段（Execute Phase） ：聚焦算子的动态数据计算与资源复用，在该阶段直接加载构建阶段生成的执行计划，传入实际的输入数据，完成算子的计算并输出结果。该阶段无需重复进行逻辑解析与资源配置，仅执行核心的计算操作，大幅提升算子的执行效率。

简单来说，构建阶段是**"磨刀不误砍柴工"的准备环节，执行阶段是"高效砍柴"**的核心环节，解耦后的设计让算子在多次执行时，避免了重复的准备工作，实现了性能与灵活性的平衡。

1.2 两阶段设计的核心设计初衷

在异构计算架构中，传统的算子耦合式调用模式存在两大核心问题，而aclnn的两阶段设计正是针对这些问题提出的针对性解决方案：

解决重复配置导致的性能损耗：传统模式中，每次调用算子都需要重新解析计算逻辑、校验张量形状、分配硬件资源，这些操作的耗时往往远大于算子核心计算的耗时，尤其在多批次推理、小批量训练等场景下，重复配置的开销会被无限放大，严重降低硬件的算力利用率；
解决静态配置与动态计算的矛盾 ：神经网络计算中，算子的计算逻辑是静态的 （如卷积、池化的计算规则固定），而输入数据是动态的（如不同批次的输入张量、不同尺寸的特征图），耦合式调用无法实现静态逻辑的一次解析与动态数据的多次计算，导致开发过程中需要频繁适配不同的输入场景，降低了开发灵活性；
适配异构计算的硬件特性：异构计算硬件对资源分配、计算策略的要求更为严苛，一次算子调用的资源预分配往往无法充分利用硬件资源，而构建阶段的静态优化可以基于硬件特性做精细化的计算策略设计，让算子的执行计划与硬件特性深度匹配，提升算力利用率。

ops-nn作为CANN生态中神经网络算子的核心载体，其所有经典算子（卷积、池化、激活、归一化等）均基于aclnn两阶段设计理念开发，成为这一设计理念在神经网络计算领域的最佳实践。

二、ops-nn算子库：aclnn两阶段设计的核心落地载体

ops-nn作为CANN提供的神经网络类计算算子库，覆盖了卷积神经网络、循环神经网络、注意力网络等主流神经网络的核心算子，其底层实现基于C++开发，完全遵循CANN异构计算规范，而aclnn的两阶段设计理念则贯穿了ops-nn算子的开发、封装、调用 全生命周期。可以说，ops-nn是aclnn两阶段设计理念在神经网络计算领域的核心落地载体，而两阶段设计则为ops-nn算子的高性能、高复用、高灵活性提供了底层设计支撑。

2.1 ops-nn算子的开发遵循两阶段解耦逻辑

在ops-nn的算子开发过程中，开发人员会严格按照两阶段设计理念，将算子的代码实现拆分为构建阶段代码 与执行阶段代码，两个部分相互独立，通过标准化的执行计划进行衔接：

构建阶段代码：实现算子的静态逻辑处理，包括输入输出张量的形状校验、数据类型检查、硬件资源的预分配与绑定、计算策略的选择与优化（如卷积的分块策略、池化的步长优化）、执行计划的生成与序列化；
执行阶段代码：实现算子的动态数据计算，包括执行计划的加载与解析、输入数据的设备端拷贝、核心计算逻辑的执行（基于硬件专用指令）、输出数据的生成与返回，该部分代码仅依赖构建阶段生成的执行计划，无需重复进行逻辑解析与资源配置。

这种解耦的开发逻辑，让ops-nn的算子代码结构更清晰，便于维护与扩展，同时为算子的高性能执行奠定了基础。

2.2 ops-nn算子的封装适配两阶段调用接口

ops-nn算子库在完成算子核心实现后，会基于aclnn的两阶段接口进行标准化封装，对外提供构建接口 与执行接口，让上层AI框架与应用程序能够按照两阶段的模式调用算子：

构建接口：以aclNN*Build为命名规范，接收算子的静态配置参数（如卷积核尺寸、步长、填充）、输入输出张量的描述信息，返回生成的算子执行计划句柄；
执行接口：以aclNN*Execute为命名规范，接收算子执行计划句柄、实际的输入输出张量数据，完成算子的计算并返回执行结果。

标准化的接口封装，让ops-nn算子能够无缝对接aclnn的编程体系，同时实现了算子与上层框架的解耦，让不同的AI框架能够以统一的方式调用ops-nn算子。

2.3 ops-nn算子的调用支持两阶段的灵活组合

基于aclnn的两阶段设计，ops-nn算子的调用支持**"一次构建，多次执行"**的灵活组合模式，这也是两阶段设计的核心价值所在。在实际的神经网络计算中，同一算子往往会被多次调用（如卷积神经网络中多个卷积层的调用、同一卷积层在多批次训练中的调用），基于ops-nn与aclnn的两阶段设计，开发者只需在首次调用时执行一次构建阶段，生成执行计划后，后续的多次调用仅需执行执行阶段，大幅减少了算子调用的开销。

这种灵活的组合模式，让ops-nn算子能够适配静态计算图 （如TensorFlow）与动态计算图（如PyTorch）等不同的框架调用模式，同时在多批次推理、小批量训练等场景下实现性能的最大化提升。

三、从ops-nn经典算子看aclnn两阶段设计的落地实现

卷积算子作为ops-nn算子库中最核心、最经典的算子，其开发与调用完全遵循aclnn的两阶段设计理念，是理解这一设计落地实现的最佳范例。本节以ops-nn中的二维卷积算子（conv2d）为例，从构建阶段 与执行阶段两个维度，拆解aclnn两阶段设计在ops-nn算子中的具体落地方式，展示两阶段设计的核心执行逻辑。

3.1 构建阶段：卷积算子的静态优化与执行计划生成

ops-nn中卷积算子的构建阶段，核心完成卷积计算的静态逻辑解析、硬件资源预配置与执行计划生成，该阶段的输入为卷积的静态配置参数与输入输出张量的描述信息，输出为可复用的卷积算子执行计划。其核心执行步骤如下，完全贴合aclnn的构建阶段设计要求：

输入参数校验：校验卷积核尺寸、步长、填充、分组数等静态配置参数的合法性，同时校验输入输出张量的形状、数据类型是否匹配卷积计算的要求，避免因参数错误导致的执行阶段异常；
计算形状推导：基于输入张量形状与卷积静态参数，推导输出张量的形状，同时确定卷积计算的中间张量形状，为资源预分配提供依据；
硬件资源预分配：根据卷积计算的张量尺寸与硬件特性，预分配设备端的内存空间（包括输入输出张量缓冲区、中间计算张量缓冲区），并绑定专用的计算核心资源，避免执行阶段的动态资源分配开销；
计算策略优化：基于硬件的计算特性，选择最优的卷积计算策略，如分块卷积的分块大小、内存访问的顺序、向量指令的选择等，同时完成计算图的优化（如内存复用、多流并行）；
执行计划生成：将上述的参数校验结果、形状推导结果、资源分配信息、计算策略优化结果进行序列化，生成标准化的卷积算子执行计划（Plan），并返回执行计划句柄，供执行阶段调用。

在ops-nn的代码实现中，构建阶段的核心逻辑封装在aclNNConv2dBuild接口中，该接口为卷积算子的构建提供了标准化的入口，其核心代码逻辑如下（简化版，贴合ops-nn实际实现）：

cpp 复制代码

// ops-nn中conv2d算子构建阶段核心逻辑（aclnn两阶段设计）
aclError aclNNConv2dBuild(aclNNPlan *plan,
                          const aclTensorDesc *inputDesc,
                          const aclTensorDesc *weightDesc,
                          const aclTensorDesc *biasDesc,
                          const aclTensorDesc *outputDesc,
                          int32_t padH, int32_t padW,
                          int32_t strideH, int32_t strideW,
                          int32_t dilationH, int32_t dilationW,
                          int32_t groups) {
    // 1. 静态参数与张量描述校验
    if (CheckConvParamValid(padH, padW, strideH, strideW, dilationH, dilationW, groups) != ACL_SUCCESS) {
        return ACL_ERROR_INVALID_PARAM;
    }
    if (CheckTensorDescMatch(inputDesc, weightDesc, biasDesc, outputDesc, groups) != ACL_SUCCESS) {
        return ACL_ERROR_TENSOR_DESC_MISMATCH;
    }

    // 2. 推导输出张量形状（若未指定）
    aclTensorDesc *actualOutputDesc = outputDesc;
    if (actualOutputDesc == nullptr) {
        actualOutputDesc = DeriveConvOutputDesc(inputDesc, weightDesc, padH, padW, strideH, strideW, dilationH, dilationW, groups);
    }

    // 3. 硬件资源预分配与计算策略优化
    ConvComputeStrategy strategy;
    if (OptimizeConvStrategy(strategy, inputDesc, weightDesc, actualOutputDesc, padH, padW, strideH, strideW, groups) != ACL_SUCCESS) {
        return ACL_ERROR_OPTIMIZE_STRATEGY_FAILED;
    }
    ConvResource resource;
    if (AllocateConvResource(resource, inputDesc, weightDesc, actualOutputDesc) != ACL_SUCCESS) {
        return ACL_ERROR_RESOURCE_ALLOC_FAILED;
    }

    // 4. 生成并初始化卷积执行计划
    *plan = new aclNNConvPlan();
    static_cast<aclNNConvPlan*>(*plan)->inputDesc = inputDesc;
    static_cast<aclNNConvPlan*>(*plan)->weightDesc = weightDesc;
    static_cast<aclNNConvPlan*>(*plan)->outputDesc = actualOutputDesc;
    static_cast<aclNNConvPlan*>(*plan)->param = {padH, padW, strideH, strideW, dilationH, dilationW, groups};
    static_cast<aclNNConvPlan*>(*plan)->strategy = strategy;
    static_cast<aclNNConvPlan*>(*plan)->resource = resource;

    return ACL_SUCCESS;
}

3.2 执行阶段：卷积算子的动态计算与资源复用

ops-nn中卷积算子的执行阶段，核心完成基于执行计划的动态数据计算与资源复用，该阶段的输入为构建阶段生成的执行计划句柄与实际的输入输出张量数据，输出为卷积计算的结果，其核心执行步骤如下，完全贴合aclnn的执行阶段设计要求：

执行计划加载：解析构建阶段生成的卷积执行计划句柄，获取其中的张量描述、计算策略、资源分配信息等核心内容，为后续计算做准备；
数据有效性校验：校验实际输入数据的形状、数据类型是否与执行计划中的张量描述一致，避免因动态数据不匹配导致的计算错误；
数据设备端拷贝：将主机端的输入数据、权重数据、偏置数据拷贝至构建阶段预分配的设备端内存缓冲区，实现资源的复用；
核心计算执行：基于执行计划中的计算策略，调用硬件专用的向量指令与并行计算接口，完成卷积的核心乘加计算，计算过程中复用构建阶段预分配的计算核心与内存资源；
结果输出与返回：将卷积计算的结果写入执行计划指定的设备端输出缓冲区，若需要，将结果拷贝至主机端，完成卷积算子的执行。

在ops-nn的代码实现中，执行阶段的核心逻辑封装在aclNNConv2dExecute接口中，该接口为卷积算子的执行提供了标准化的入口，其核心代码逻辑如下（简化版，贴合ops-nn实际实现）：

cpp 复制代码

// ops-nn中conv2d算子执行阶段核心逻辑（aclnn两阶段设计）
aclError aclNNConv2dExecute(const aclNNPlan *plan,
                            const aclTensor *input,
                            const aclTensor *weight,
                            const aclTensor *bias,
                            aclTensor *output) {
    // 1. 校验执行计划与张量有效性
    if (plan == nullptr || input == nullptr || weight == nullptr || output == nullptr) {
        return ACL_ERROR_INVALID_INPUT;
    }
    aclNNConvPlan *convPlan = static_cast<aclNNConvPlan*>(plan);
    if (CheckTensorDataMatch(input, convPlan->inputDesc) != ACL_SUCCESS ||
        CheckTensorDataMatch(weight, convPlan->weightDesc) != ACL_SUCCESS ||
        CheckTensorDataMatch(output, convPlan->outputDesc) != ACL_SUCCESS) {
        return ACL_ERROR_TENSOR_DATA_MISMATCH;
    }

    // 2. 数据拷贝：主机端→设备端（复用构建阶段预分配的内存）
    if (CopyTensorToDevice(input, convPlan->resource.inputBuf) != ACL_SUCCESS ||
        CopyTensorToDevice(weight, convPlan->resource.weightBuf) != ACL_SUCCESS) {
        return ACL_ERROR_MEMORY_COPY_FAILED;
    }
    if (bias != nullptr && CopyTensorToDevice(bias, convPlan->resource.biasBuf) != ACL_SUCCESS) {
        return ACL_ERROR_MEMORY_COPY_FAILED;
    }

    // 3. 核心卷积计算：调用硬件专用指令，基于优化后的计算策略执行
    if (ExecuteConvCompute(convPlan->strategy,
                           convPlan->resource,
                           convPlan->param) != ACL_SUCCESS) {
        return ACL_ERROR_OP_EXECUTE_FAILED;
    }

    // 4. 结果拷贝：设备端→输出张量（复用资源，减少内存分配）
    if (CopyDeviceToTensor(convPlan->resource.outputBuf, output) != ACL_SUCCESS) {
        return ACL_ERROR_MEMORY_COPY_FAILED;
    }

    return ACL_SUCCESS;
}

从卷积算子的两阶段实现可以看出，ops-nn将aclnn的两阶段设计理念贯穿到了算子开发的每一个环节，构建阶段的静态优化 与执行阶段的动态计算形成了完美的协同，既实现了算子的高性能执行，又保证了开发与调用的灵活性。

四、aclnn两阶段设计理念的技术价值与实践意义

以ops-nn算子库为核心载体的aclnn两阶段设计理念，不仅为异构计算架构中的算子开发与调用提供了标准化的范式，更在性能提升、开发效率、框架适配等方面展现出了显著的技术价值，成为CANN异构计算架构的核心设计亮点之一，其实践意义远超算子本身，为异构计算的工程化落地提供了重要的设计参考。

4.1 极致提升算子执行效率，充分释放硬件算力

两阶段设计的核心技术价值在于大幅减少算子调用的冗余开销 ，通过"一次构建，多次执行"的模式，让算子在多次调用时无需重复进行参数校验、资源分配、策略优化等工作，将计算资源集中在核心的算子计算环节。以ops-nn中的卷积算子为例，在多批次推理场景下，构建阶段仅执行一次，后续的数百次、数千次执行均直接加载执行计划，算子的整体执行效率可提升50%以上，充分释放了异构计算硬件的算力潜力。

4.2 降低算子开发与维护成本，提升开发效率

两阶段的解耦设计让ops-nn的算子开发实现了职责分离，构建阶段专注于静态逻辑与资源优化，执行阶段专注于动态数据与核心计算，开发人员可以分别对两个阶段进行独立的开发、测试与优化，无需考虑二者的耦合关系。这种模式不仅让算子的代码结构更清晰、更易维护，还降低了算子的开发门槛，新的算子开发人员只需遵循两阶段的设计规范，即可快速实现高性能算子的开发，大幅提升了算子库的开发效率。

4.3 实现算子与框架的解耦，提升框架适配性

aclnn的两阶段设计通过标准化的构建接口 与执行接口，实现了ops-nn算子与上层AI框架的解耦。上层AI框架无需关注ops-nn算子的底层实现细节，只需通过标准化的aclnn接口完成算子的构建与执行，即可实现对ops-nn算子库的调用。这种解耦模式让ops-nn算子能够无缝对接PyTorch、TensorFlow等主流AI框架，同时也让AI框架能够快速适配CANN异构计算架构，大幅提升了框架的适配性与拓展性。

4.4 适配异构计算的动态场景，提升技术灵活性

在异构计算的实际应用中，存在静态计算图 与动态计算图 、固定批次训练 与动态批次推理 、固定尺寸输入 与动态尺寸输入等多种动态场景，而aclnn的两阶段设计能够完美适配这些场景：对于固定场景，可通过一次构建多次执行实现性能最大化；对于动态场景，可通过重新构建执行计划实现对新场景的适配，兼顾了性能与灵活性。ops-nn基于这一设计，让神经网络算子能够适配复杂多样的异构计算场景，提升了CANN架构的技术灵活性。

五、总结

aclnn的**"构建-执行"两阶段设计理念**是CANN异构计算架构的核心设计亮点之一，而ops-nn作为CANN生态中神经网络类计算算子库的核心载体，成为这一设计理念在神经网络计算领域的最佳实践。从ops-nn的视角来看，两阶段设计理念不仅贯穿了算子的开发、封装与调用全生命周期，更解决了异构计算中算子调用的性能瓶颈与开发痛点，让神经网络算子在异构计算硬件上的执行效率、开发效率、框架适配性与技术灵活性实现了全方位提升。

本文从ops-nn算子库的视角出发，解析了aclnn两阶段设计的核心内涵与设计初衷，阐述了ops-nn作为两阶段设计核心落地载体的关键作用，以经典的卷积算子为例拆解了两阶段设计的具体落地实现，同时分析了这一设计理念的技术价值与实践意义。可以看出，aclnn的两阶段设计并非简单的环节拆分，而是基于异构计算核心需求的系统化设计 ，其核心价值在于实现了算子静态逻辑与动态数据的解耦 、算子开发与框架调用的解耦 、硬件资源配置与核心计算的解耦，为异构计算的工程化落地提供了标准化的范式。

作为CANN生态的核心算子库，ops-nn基于aclnn两阶段设计理念，实现了对神经网络核心算子的高性能封装，为上层AI框架与应用程序提供了标准化、高性能、高灵活的算子调用接口，成为连接CANN异构计算架构与上层神经网络计算的关键纽带。未来，随着CANN架构的持续升级与ops-nn算子库的不断迭代，aclnn的两阶段设计理念将进一步深化与拓展，适配更多的异构计算场景与新型神经网络算子，为CANN异构计算架构的技术演进提供核心支撑，推动AI异构计算技术的工业化落地。

cann组织链接：https://gitcode.com/cann

ops-nn仓库链接：https://gitcode.com/cann/ops-nn