算子即服务：cann/ops-nn 如何将高性能计算转化为可组合的基础设施

在云计算时代，"一切皆服务"（Everything as a Service）已成为构建现代应用的标准范式。计算、存储、数据库、AI模型------所有资源都被封装为可通过API调用的服务单元，按需使用、弹性伸缩、按量付费。然而，在AI系统的最底层，一个关键组件长期游离于这一范式之外：算子（Operator）。

传统上，算子被视为静态库中的函数符号，与特定框架、硬件甚至编译器版本深度绑定。这种"硬编码"模式严重限制了AI系统的灵活性与可组合性。直到 cann/ops-nn 开源仓库的出现，才真正将算子从"库函数"升维为"可组合的服务"，为构建下一代AI基础设施铺平了道路。

本文将探讨 cann/ops-nn 如何通过接口标准化、实现解耦与运行时注册，实现"算子即服务"（Operator as a Service, OaaS）的愿景，并分析其对AI开发范式的深远影响。

一、从函数到服务：算子抽象的范式跃迁

在传统框架中，调用一个卷积算子可能如下所示：

python 复制代码

# PyTorch 风格（隐式绑定到CUDA后端）
output = torch.nn.functional.conv2d(input, weight, stride=1, padding=1)

这里，conv2d 是一个封闭的黑盒：你无法知道它内部是否调用了cuDNN、是否支持Tensor Core、是否能与其他算子融合。更重要的是，你无法在不重新编译整个框架的情况下替换其实现。

cann/ops-nn 则将算子重新定义为一个具有明确契约的、可发现、可替换的服务。

1. 标准化接口：算子的"服务合同"

每个算子首先通过C++前端定义其服务接口：

cpp 复制代码

// ops-nn/frontend/ops/custom_gelu.cc
#include "register/op_impl_registry.h"

namespace ge {
static ge::OperatorCreatorRegister g_gelu_reg("CustomGELU", []() {
    ge::OperatorCreator creator;
    creator.SetInputNames({"x"});
    creator.SetOutputNames({"y"});
    creator.AddAttr("approximate", ge::AttrValue::CreateFrom(false));
    // 关键：声明该算子支持的服务能力
    creator.AddAttr("_service_capabilities", 
        ge::AttrValue::CreateFrom(std::vector<std::string>{
            "fp16", "int8_quantizable", "fusion_eligible"
        })
    );
    return creator;
});
} // namespace ge

这个注册过程相当于在"算子服务目录"中发布了一条服务公告，声明："我提供名为 CustomGELU 的服务，支持FP16、可量化、可融合"。

2. 动态发现与绑定

上层框架（如MindSpore）在运行时通过服务名称查找并绑定实现：

python 复制代码

# MindSpore 用户代码
from mindspore.ops import Custom

# 动态加载名为 "CustomGELU" 的算子服务
gelu_op = Custom("CustomGELU", bprop="auto")

def forward(x):
    return gelu_op(x)  # 实际调用由运行时根据硬件环境决定

如果系统检测到当前是昇腾NPU，则自动绑定 ops-nn/tbe/activations/custom_gelu.py 中的TBE实现；若未来支持其他硬件，只需注册新的后端实现，用户代码无需任何修改。

架构示意：

复制代码

+---------------------+
|   User Application  |
+----------+----------+
           |
           v
+----------+----------+
|   Framework Runtime |
| (e.g., MindSpore)   |
+----------+----------+
           |
           v
+----------+----------+      +------------------+
| Operator Service    |<---->| Ascend NPU Impl  |
| Registry (ops-nn)   |      | (TBE DSL)        |
+----------+----------+      +------------------+
           |
           v
+------------------+      +------------------+
| CUDA GPU Impl?   |<---->| Future Hardware  |
+------------------+      +------------------+

二、可组合性：构建AI的"乐高积木"

当算子成为标准化服务，AI模型的构建方式也随之改变------从"编写网络结构"变为"组合算子服务"。

1. 算子融合即服务编排

图优化器可以安全地将多个算子服务编排为一个更高效的复合服务：

python 复制代码

# 原始模型：LayerNorm + GELU
y1 = layer_norm(x)
y2 = gelu(y1)

# 图优化器识别到这两个算子均标记为 "fusion_eligible"
# 自动合成一个新的复合算子服务 "FusedLayerNormGELU"
y2 = fused_layer_norm_gelu(x)  # 单次Kernel Launch，零中间内存

这种融合不是魔法，而是基于算子服务契约的确定性编排。

2. 自定义算子的快速集成

研究者开发的新算法，可立即作为新服务发布：

python 复制代码

# ops-nn/tbe/research/swin_attention.py
@fusion_manager.register("SwinWindowAttention")
def swin_attention_compute(...):
    # 实现滑动窗口注意力
    ...

# 注册后，用户即可直接调用
swin_attn = Custom("SwinWindowAttention")
output = swin_attn(query, key, value, window_size=7)

从论文到可部署服务，周期从数月缩短至数天。

三、运行时治理：服务的生命周期管理

真正的"服务"不仅包括功能实现，还涵盖版本、配置、监控与治理 。cann/ops-nn 为此提供了基础支持。

1. 版本化算子服务

通过语义化版本，支持多版本共存：

bash 复制代码

# 目录结构支持版本隔离
ops-nn/
└── tbe/
    └── vision/
        ├── conv2d_v1/   # legacy implementation
        └── conv2d_v2/   # optimized with new scheduling

用户可通过属性指定版本：

python 复制代码

conv = Custom("Conv2D", version="2.0")

2. 配置驱动的行为调整

算子服务的行为可通过配置动态调整，无需重编译：

yaml 复制代码

# config/operator_profiles.yaml
CustomGELU:
  fp16: true
  approximate: true   # 启用快速近似版本
  profiling: enabled  # 开启性能埋点

运行时读取此配置，自动选择对应实现路径。

3. 内置可观测性

每个算子服务可上报执行指标：

python 复制代码

# 在TBE调度末尾插入埋点
def schedule_swin_attention(sch, output):
    # ... 调度逻辑
    sch[output].annotate("perf_metric", "swin_attn_latency")
    return sch

这些指标被采集至Prometheus，用于SLA监控与根因分析。

四、生态意义：从封闭库到开放市场

"算子即服务"的终极愿景，是构建一个开放的算子市场。在这个市场中：

硬件厂商发布针对自家芯片优化的算子服务；
算法团队贡献前沿模型所需的定制算子；
云服务商按性能、成本对算子服务进行分级计费；
开发者像挑选SaaS产品一样，选择最适合业务需求的算子实现。

cann/ops-nn 正是这一市场的雏形。其开源协议（Apache 2.0）、标准化接口和自动化测试体系，为多方协作提供了信任基础。

结语：基础设施的微服务化浪潮

微服务架构曾彻底改变了应用开发的方式。今天，cann/ops-nn 正在AI基础设施领域掀起一场类似的革命------将庞大、僵化的算子库，拆解为细粒度、可发现、可组合、可治理的算子服务。

这不仅是技术实现的演进，更是思维范式的跃迁：算子不再是代码的附属品，而是独立的价值单元。当每一个算子都能被清晰定义、独立交付、自由组合，AI系统的创新速度与工程效率将迎来质的飞跃。

在这场变革中，cann/ops-nn 不仅是一个仓库，更是一个宣言：高性能AI，应当像现代云服务一样，开放、灵活、可靠。而我们，正站在这一新范式的起点之上。

相关链接：

CANN开源组织主页: https://atomgit.com/cann
ops-nn算子仓库地址: https://atomgit.com/cann/ops-nn

算子即服务：cann/ops-nn 如何将高性能计算转化为可组合的基础设施

算子即服务：cann/ops-nn 如何将高性能计算转化为可组合的基础设施

一、 从函数到服务：算子抽象的范式跃迁

二、 可组合性：构建AI的"乐高积木"

三、 运行时治理：服务的生命周期管理

四、 生态意义：从封闭库到开放市场

结语：基础设施的微服务化浪潮

一、从函数到服务：算子抽象的范式跃迁

二、可组合性：构建AI的"乐高积木"

三、运行时治理：服务的生命周期管理

四、生态意义：从封闭库到开放市场