CANN pto-isa：PTO到机器码的映射

个人主页：

文章目录

- PTO为什么存在：硬件抽象的必然选择
- - 没有虚拟ISA的困境
  - PTO的解法：一次编写，多处映射
- 为什么AI编译需要虚拟ISA
- - 根本差异：计算粒度不同
  - Tile：PTO的核心抽象
- [Graph Compiler如何生成PTO](#Graph Compiler如何生成PTO)
- - 三阶段编译流水线
  - PTO指令格式
- 昇腾NPU如何执行底层指令
- Transformer推理中的编译链路
- - 原始计算图
  - [Graph Compiler生成的PTO序列](#Graph Compiler生成的PTO序列)
  - 融合优化后的PTO序列
  - 运行时执行与性能分析
- 调试技巧：查看PTO指令
- 构建与运行
- 小结

在昇腾NPU上执行一条AI计算指令，到底经历了什么？从你写下的 matmul(A, B) 到芯片里的脉冲信号，中间横亘着编译器、运行时、驱动三层抽象。CANN pto-isa 仓库定义的PTO虚拟指令集，正是这三层抽象的"中转站"------它既不是你写的Python代码，也不是硬件执行的机器码，而是连接二者的桥梁。

本文聚焦PTO虚拟指令集如何映射到昇腾NPU底层指令，揭示AI编译中"虚拟ISA"这一关键设计。

PTO为什么存在：硬件抽象的必然选择

先看一个反直觉的事实：同一个ResNet-50模型，在Ascend 910和Ascend 950上跑，算子实现完全不同，但你的Python代码一行都不用改。为什么？

因为CANN在"你的代码"和"硬件指令"之间插了一层PTO。

没有虚拟ISA的困境

假设没有PTO，每次新增一个算子，你需要：

为Ascend 910写一套Cube单元指令序列
为Ascend 950写另一套Vector单元指令序列
为下一代芯片又写一套...
每个框架（PyTorch、TensorFlow、MindSpore）各自维护一套映射表

这就是NVIDIA CUDA早期走过的路------每个架构（sm_70、sm_80、sm_90）都要单独调优。昇腾选择不走这条路。

PTO的解法：一次编写，多处映射

PTO定义了90+个标准Tile级操作，如 PTO_MATMUL、PTO_REDUCE、PTO_DMA_COPY。这些操作不绑定任何具体硬件，只描述"做什么"，不描述"怎么做"。

python 复制代码

# PTO指令生成的伪代码示例
class PTOBuilder:
    def build_matmul(self, a, b, c, m, n, k):
        """生成PTO矩阵乘指令"""
        return PTOInstruction(
            opcode="PTO_MATMUL",
            inputs=[a, b],        # 输入张量
            output=c,             # 输出张量
            shape=(m, n, k),      # 计算维度
            attrs={
                "transpose_a": False,
                "transpose_b": False,
                "dtype": "float16"
            }
        )

硬件细节由Graph Compiler在编译时注入。你写的算子代码只生成PTO指令，具体走Cube还是Vector、走哪条流水线、如何分块，全部由编译器根据目标芯片决定。

为什么AI编译需要虚拟ISA

传统编译器（GCC、LLVM）有中间表示（IR），AI编译器为什么还要单独搞一个虚拟ISA？

根本差异：计算粒度不同

传统IR（如LLVM IR）是"指令级"------add、mul、load、store，对应CPU的指令集。AI编译器的输入是"算子级"------MatMul、Conv2D、Attention，一个算子内部可能包含数万条底层指令。

PTO填补了这个粒度断层：

复制代码

Python算子调用 → PTO Tile操作 → 硬件指令序列
    (粗粒度)      (中粒度Tile)      (细粒度指令)

Tile：PTO的核心抽象

Tile是PTO的基本调度单位，表示一块可独立计算的数据分区。一个Tile通常对应NPU上的一次并行计算任务。

python 复制代码

# Tile划分示例
class TileScheduler:
    def partition_matmul(self, m, n, k, tile_m, tile_n, tile_k):
        """将MatMul划分为Tile网格"""
        tiles = []
        for i in range(0, m, tile_m):
            for j in range(0, n, tile_n):
                for p in range(0, k, tile_k):
                    tiles.append({
                        "row_range": (i, min(i + tile_m, m)),
                        "col_range": (j, min(j + tile_n, n)),
                        "k_range": (p, min(p + tile_k, k))
                    })
        return tiles

Tile大小的选择直接影响性能：太大导致SRAM溢出，太小导致并行度不足。PTO不决定Tile大小，只提供Tile操作的语义，具体划分由Graph Compiler根据硬件参数计算。

Graph Compiler如何生成PTO

Graph Compiler是CANN五层架构中第3层编译层的核心组件。它接收框架下发的计算图，经过优化后生成PTO指令序列。

三阶段编译流水线

复制代码

原始计算图 → 图准备 → 图优化 → 图编译 → PTO指令序列

图准备阶段：形状推导、常量折叠、死边消除

python 复制代码

# 图准备阶段的IR变换示例
# 原始IR
original_graph = """
MatMul(x, weight1) → intermediate
MatMul(intermediate, weight2) → output
"""

# 常量折叠后（假设weight1、weight2是常量）
folded_graph = """
Const(weight1 @ weight2) → fused_weight  # 编译时预计算
MatMul(x, fused_weight) → output
"""

图优化阶段：算子融合、公共子表达式消除、流水编排

python 复制代码

# 算子融合示例
# 融合前
before_fusion = [
    "MatMul(x, w) → tmp",
    "BiasAdd(tmp, b) → tmp2",
    "ReLU(tmp2) → output"
]

# 融合后（生成融合PTO指令）
after_fusion = [
    "PTO_FUSED_MATMUL_BIAS_RELU(x, w, b) → output"
]

图编译阶段：内存分配、指令调度、生成最终PTO序列

cpp 复制代码

// C++伪代码：PTO指令序列生成
class GraphCompiler {
public:
    std::vector<PTOInstruction> Compile(const Graph& graph) {
        std::vector<PTOInstruction> pto_sequence;
        
        // 1. 内存分配
        auto mem_plan = AllocateMemory(graph);
        
        // 2. 拓扑排序确定执行顺序
        auto exec_order = TopologicalSort(graph);
        
        // 3. 为每个节点生成PTO指令
        for (auto& node : exec_order) {
            auto pto = GeneratePTO(node, mem_plan);
            pto_sequence.push_back(pto);
        }
        
        // 4. 插入同步指令
        InsertSyncPoints(pto_sequence);
        
        return pto_sequence;
    }
};

PTO指令格式

每条PTO指令包含操作码、输入输出张量、计算参数、依赖关系：

yaml 复制代码

# PTO指令格式示例（YAML表示）
- opcode: PTO_MATMUL
  id: op_001
  inputs:
    - tensor_id: t_001  # 矩阵A
      offset: 0
      size: 4096
    - tensor_id: t_002  # 矩阵B
      offset: 0
      size: 4096
  outputs:
    - tensor_id: t_003  # 结果矩阵C
      offset: 0
      size: 4096
  params:
    m: 1024
    n: 1024
    k: 1024
    dtype: float16
  deps: []  # 无依赖，可立即执行

- opcode: PTO_REDUCE
  id: op_002
  inputs:
    - tensor_id: t_003
  outputs:
    - tensor_id: t_004
  params:
    axis: 1
    op: SUM
  deps: [op_001]  # 依赖op_001完成

昇腾NPU如何执行底层指令

PTO指令生成后，由Runtime（第4层执行层）调度到NPU执行。关键一步：PTO到硬件指令的映射。

昇腾达芬奇架构的执行单元

Ascend 910的达芬奇架构包含三类计算单元：

Cube单元：矩阵运算（MatMul、Conv），峰值算力最高
Vector单元：向量运算（激活函数、逐元素操作），灵活度高
Scalar单元：标量运算（控制流、地址计算）

PTO指令根据操作类型映射到不同单元：

cpp 复制代码

// PTO到硬件单元的映射
enum class ComputeUnit { CUBE, VECTOR, SCALAR };

ComputeUnit MapPTOToUnit(PTOOpcode opcode) {
    switch (opcode) {
        case PTO_MATMUL:
        case PTO_CONV2D:
        case PTO_BATCH_MATMUL:
            return ComputeUnit::CUBE;
        
        case PTO_RELU:
        case PTO_GELU:
        case PTO_ADD:
        case PTO_MUL:
            return ComputeUnit::VECTOR;
        
        case PTO_REDUCE:  // 根据参数决定
        case PTO_SOFTMAX:
            return ComputeUnit::VECTOR;  // 通常走Vector
        
        default:
            return ComputeUnit::SCALAR;
    }
}

指令映射：从PTO到Cube指令序列

以 PTO_MATMUL 为例，映射到Cube单元的指令序列：

cpp 复制代码

// Cube单元指令序列生成（伪代码）
class CubeInstructionGenerator {
public:
    std::vector<CubeInstr> GenerateMatMul(
        const Tensor& A, const Tensor& B, Tensor& C,
        int M, int N, int K) {
        
        std::vector<CubeInstr> instrs;
        
        // Cube单元的MTE指令（矩阵乘累加）
        // 将大矩阵划分为Cube可处理的分块
        int block_m = 16;  // Cube单次处理16x16分块
        int block_n = 16;
        int block_k = 16;
        
        for (int i = 0; i < M; i += block_m) {
            for (int j = 0; j < N; j += block_n) {
                // MTE指令：加载A的分块到L0A缓冲
                instrs.push_back({
                    .op = MTE_LOAD_A,
                    .addr = A.addr + i * K * sizeof(half),
                    .size = block_m * block_k * sizeof(half),
                    .buffer = L0A
                });
                
                for (int p = 0; p < K; p += block_k) {
                    // MTE指令：加载B的分块到L0B缓冲
                    instrs.push_back({
                        .op = MTE_LOAD_B,
                        .addr = B.addr + p * N * sizeof(half) + j * sizeof(half),
                        .size = block_k * block_n * sizeof(half),
                        .buffer = L0B
                    });
                    
                    // MMAD指令：矩阵乘累加
                    instrs.push_back({
                        .op = MMAD,
                        .a_buffer = L0A,
                        .b_buffer = L0B,
                        .c_buffer = L0C,  // 累加到L0C
                        .m = block_m,
                        .n = block_n,
                        .k = block_k
                    });
                }
                
                // MTE指令：将L0C结果写回Global Memory
                instrs.push_back({
                    .op = MTE_STORE_C,
                    .addr = C.addr + i * N * sizeof(half) + j * sizeof(half),
                    .size = block_m * block_n * sizeof(half),
                    .buffer = L0C
                });
            }
        }
        
        return instrs;
    }
};

内存层级与数据搬运

昇腾NPU的内存层级：Global Memory（HBM）→ L1 Buffer → L0 Buffer（A/B/C）→ Register。PTO指令中的数据搬运被展开为MTE（Memory Transfer Engine）指令：

cpp 复制代码

// 内存搬运指令序列
struct MTEInstruction {
    MTEOp op;           // LOAD/STORE/COPY
    void* src_addr;     // 源地址
    void* dst_addr;     // 目标地址
    size_t size;        // 搬运大小
    BufferType buffer;  // 目标缓冲区类型
};

// PTO_DMA_COPY展开为MTE指令序列
std::vector<MTEInstruction> ExpandDMACopy(
    void* src, void* dst, size_t size) {
    
    return {{
        .op = MTE_COPY,
        .src_addr = src,
        .dst_addr = dst,
        .size = size,
        .buffer = L1  // 先搬到L1，再由后续指令搬到L0
    }};
}

Transformer推理中的编译链路

以Transformer推理中最常见的Attention计算为例，展示完整的PTO编译链路。

原始计算图

python 复制代码

# Transformer Attention的Python伪代码
def attention(query, key, value):
    # 1. Q @ K^T
    scores = torch.matmul(query, key.transpose(-2, -1))
    
    # 2. Scale
    scores = scores / math.sqrt(query.size(-1))
    
    # 3. Softmax
    probs = torch.softmax(scores, dim=-1)
    
    # 4. Probs @ V
    output = torch.matmul(probs, value)
    
    return output

Graph Compiler生成的PTO序列

yaml 复制代码

# PTO指令序列（简化版）
- opcode: PTO_MATMUL
  id: attn_001
  desc: "Q @ K^T"
  inputs: [query, key_transposed]
  outputs: [scores]
  
- opcode: PTO_MUL
  id: attn_002
  desc: "scores / sqrt(d)"
  inputs: [scores, scale_factor]
  outputs: [scaled_scores]
  deps: [attn_001]

- opcode: PTO_SOFTMAX
  id: attn_003
  desc: "softmax along last dim"
  inputs: [scaled_scores]
  outputs: [probs]
  deps: [attn_002]

- opcode: PTO_MATMUL
  id: attn_004
  desc: "probs @ V"
  inputs: [probs, value]
  outputs: [output]
  deps: [attn_003]

融合优化后的PTO序列

Graph Compiler检测到 MatMul → Scale → Softmax → MatMul 是常见模式，触发融合：

yaml 复制代码

# 融合后的PTO指令
- opcode: PTO_FUSED_FLASH_ATTENTION
  id: attn_fused
  desc: "FlashAttention融合算子"
  inputs: [query, key, value]
  outputs: [output]
  params:
    scale: 0.0625  # 1/sqrt(256)
    causal: true   # 因果掩码
  deps: []

融合后，原本4条PTO指令合并为1条，减少中间结果的内存读写。

运行时执行与性能分析

cpp 复制代码

// Runtime执行PTO指令的伪代码
class PTOExecutor {
public:
    void Execute(const std::vector<PTOInstruction>& pto_seq) {
        for (auto& pto : pto_seq) {
            // 1. 等待依赖完成
            WaitForDependencies(pto.deps);
            
            // 2. 映射到硬件指令
            auto hw_instrs = MapToHardware(pto);
            
            // 3. 下发到NPU
            SubmitToNPU(hw_instrs);
            
            // 4. 记录性能数据
            if (profiling_enabled_) {
                RecordPerf(pto.id, GetTimestamp());
            }
        }
    }
};

性能分析代码示例：

python 复制代码

# 性能分析：打印PTO指令执行时间
import cann_profiler as profiler

def analyze_pto_performance(model):
    """分析PTO指令级别的性能"""
    with profiler.start(pto_level=True):
        output = model(input)
    
    pto_stats = profiler.get_pto_stats()
    for op in pto_stats:
        print(f"{op.opcode}: {op.duration_ms:.3f}ms, "
              f"utilization={op.compute_util:.1%}")
    
    # 输出示例：
    # PTO_MATMUL: 2.340ms, utilization=87.2%
    # PTO_SOFTMAX: 0.521ms, utilization=45.3%
    # PTO_FUSED_FLASH_ATTENTION: 1.892ms, utilization=91.5%

调试技巧：查看PTO指令

开发算子时，查看生成的PTO指令有助于理解编译器行为：

python 复制代码

# 调试：打印PTO指令序列
import cann_debug as debug

def dump_pto_instructions(graph):
    """导出计算图的PTO指令序列"""
    pto_seq = debug.compile_to_pto(graph)
    
    print(f"Total PTO instructions: {len(pto_seq)}")
    for i, pto in enumerate(pto_seq):
        print(f"[{i}] {pto.opcode}")
        print(f"    inputs: {pto.inputs}")
        print(f"    outputs: {pto.outputs}")
        print(f"    deps: {pto.deps}")

编译选项配置：

bash 复制代码

# 编译时启用PTO调试输出
export ASCEND_GLOBAL_LOG_LEVEL=3  # INFO级别
export ASCEND_SLOG_PRINT_TO_STDOUT=1
export ENABLE_PTO_DUMP=1          # 导出PTO指令

# 运行模型
python your_model.py

# PTO指令会输出到：
# /var/log/npu/pto_dump/<timestamp>_<graph_id>.yaml

构建与运行

pto-isa仓库的构建命令：

bash 复制代码

# 克隆仓库
git clone https://atomgit.com/cann/pto-isa.git
cd pto-isa

# 构建PTO指令集库
mkdir build && cd build
cmake .. -DCANN_INSTALL_DIR=/usr/local/Ascend/ascend-toolkit
make -j$(nproc)
make install

运行PTO指令验证：

bash 复制代码

# 运行PTO指令单元测试
cd build
./tests/pto_instruction_test

# 输出示例：
# [PASS] PTO_MATMUL shape=(1024,1024,1024)
# [PASS] PTO_REDUCE axis=1
# [PASS] PTO_FUSED_MATMUL_BIAS_RELU

小结

PTO虚拟指令集是CANN编译体系的核心枢纽。它向上承接Graph Compiler的优化结果，向下映射到昇腾NPU的具体硬件指令。这种"一次编写，多处映射"的设计，让算子开发者无需为每代芯片重写实现，也让框架适配层保持稳定。

理解PTO到机器码的映射，是深入CANN编译原理的关键一步。推荐继续学习Graph Compiler的图优化机制，了解PTO指令如何从计算图自动生成。

仓库链接：https://atomgit.com/cann/pto-isa