MLIR：高层次综合(HLS)与设计自动化(EDA)的新范式

Multi-Level Intermediate Representation (MLIR)：高层次综合与设计自动化的新范式

引言

在硬件设计和编译器领域，中间表示（Intermediate Representation，IR）是连接高层算法描述和低层硬件实现的关键桥梁。传统的编译器和设计工具通常使用单一的IR（如LLVM IR），但随着计算架构的多样化和专业化，这种单一IR方法面临着越来越大的挑战。

Multi-Level Intermediate Representation (MLIR) 是一种新型的编译器基础设施，由Google在2019年提出并开源，现已成为LLVM项目的一部分。MLIR的核心思想是提供一个统一的框架，可以表示、转换和优化不同抽象级别的代码，从高层算法描述到低层硬件实现。这种多层次的表示方法特别适合高层次综合(HLS)和电子设计自动化(EDA)领域，能够更有效地将高级语言（如C/C++）转换为硬件描述语言（如Verilog/VHDL）。

传统IR的局限性

为什么我们需要MLIR？传统的单一IR面临以下局限性：

抽象级别固定：传统IR通常针对特定的抽象级别设计，难以同时表示高层算法结构和低层硬件细节。例如，LLVM IR主要针对通用处理器优化，不适合表达FPGA等特定硬件的特性。
表达能力有限：单一IR难以表达领域特定的概念和优化机会。例如，张量计算、硬件流水线、空间并行性等概念在传统IR中难以高效表示。
扩展性差：随着新硬件架构和编程模型的出现，传统IR难以适应这些变化，往往需要创建全新的IR或进行复杂的扩展。
优化困难：不同抽象级别的优化需要不同的IR表示，导致优化过程分散在多个独立的编译阶段，难以进行全局优化。

MLIR的核心概念

MLIR通过以下核心概念解决了传统IR的局限性：

1. Dialect（方言）

Dialect是MLIR的核心扩展机制，允许定义特定领域的操作、类型和转换规则。每个Dialect代表一个特定的抽象级别或领域，例如：

Standard Dialect：表示基本的计算操作，如算术、控制流等
Affine Dialect：表示循环嵌套和多面体优化
LLVM Dialect：表示LLVM IR级别的操作
HLS Dialect：表示高层次综合特定的概念，如流水线、接口等
RTL Dialect：表示寄存器传输级的硬件描述

这种方言机制使MLIR能够在单一框架内表示从高层算法到低层硬件的多个抽象级别。

2. Operation（操作）

Operation是MLIR中的基本执行单元，由Dialect定义。每个Operation可以：

具有输入和输出值
包含属性（如常量值、配置参数）
包含区域（如嵌套的操作块）

例如，一个加法操作可能表示为：

mlir 复制代码

%result = addf %a, %b : f32

3. Type System（类型系统）

MLIR提供了灵活的类型系统，支持从基本类型（如整数、浮点数）到复杂类型（如张量、内存引用）。Dialect可以定义自己的类型，例如：

张量类型：tensor<4x4xf32>
内存引用类型：memref<100x100xf32>
硬件特定类型：rtl.wire<32>

4. Pass System（转换系统）

MLIR的Pass系统允许对IR进行转换和优化。Pass可以是：

通用优化（如常量折叠、死代码消除）
领域特定优化（如循环展开、数据布局转换）
降低抽象级别的转换（如从Affine到Standard，从Standard到LLVM）

MLIR在高层次综合(HLS)中的应用

高层次综合(HLS)是将高级语言描述（如C/C++）转换为硬件描述语言（如Verilog/VHDL）的过程。MLIR在HLS中的应用主要体现在以下方面：

1. 多层次表示

MLIR允许在单一框架内表示HLS过程中的不同抽象级别：

高层表示：使用类似于高级语言的Dialect描述算法，保留算法的原始结构和语义
中层表示：表示硬件特定的优化，如流水线、并行化、内存分区等
低层表示：表示寄存器传输级的硬件结构，包括状态机、数据通路等

2. 硬件特定优化

MLIR允许定义硬件特定的Dialect和Pass，实现针对特定硬件架构的优化：

内存优化：内存分区、缓存策略、数据布局转换
计算优化：循环展开、流水线、并行化
接口优化：AXI接口、握手协议、数据打包

3. 设计空间探索

MLIR的多层次表示和可配置的Pass系统使其非常适合设计空间探索：

可以尝试不同的优化策略（如不同的循环展开因子、流水线II值）
可以评估不同设计选择的性能和资源使用
可以根据特定的约束条件（如时序、面积）自动选择最佳设计点

一个具体例子：从C/C++到RTL的转换

为了更直观地理解MLIR在HLS中的应用，让我们看一个简单的例子，展示如何使用MLIR将C函数转换为RTL描述。

考虑以下简单的向量加法函数：

c 复制代码

void vector_add(float *a, float *b, float *c, int n) {
  for (int i = 0; i < n; i++) {
    c[i] = a[i] + b[i];
  }
}

步骤1：高层MLIR表示（使用Standard和SCF方言）

首先，C代码被转换为使用Standard和SCF（Structured Control Flow）方言的MLIR：

mlir 复制代码

func @vector_add(%a: memref<?xf32>, %b: memref<?xf32>, %c: memref<?xf32>, %n: i32) {
  %c0 = constant 0 : i32
  %c1 = constant 1 : i32
  scf.for %i = %c0 to %n step %c1 {
    %a_val = load %a[%i] : memref<?xf32>
    %b_val = load %b[%i] : memref<?xf32>
    %sum = addf %a_val, %b_val : f32
    store %sum, %c[%i] : memref<?xf32>
  }
  return
}

这个表示保留了原始C代码的高层结构，包括循环和内存访问模式。

步骤2：添加HLS特定优化（使用HLS方言）

接下来，添加HLS特定的优化，如接口定义和流水线：

mlir 复制代码

func @vector_add(%a: memref<?xf32>, %b: memref<?xf32>, %c: memref<?xf32>, %n: i32) attributes {hls.interface = "axi"} {
  %c0 = constant 0 : i32
  %c1 = constant 1 : i32
  scf.for %i = %c0 to %n step %c1 attributes {hls.pipeline.ii = 1} {
    %a_val = load %a[%i] : memref<?xf32>
    %b_val = load %b[%i] : memref<?xf32>
    %sum = addf %a_val, %b_val : f32
    store %sum, %c[%i] : memref<?xf32>
  }
  return
}

这里添加了两个关键优化：

hls.interface = "axi"：指定使用AXI接口
hls.pipeline.ii = 1：将循环流水线化，启动间隔为1

步骤3：转换为数据流表示（使用Handshake方言）

然后，转换为表示数据流的Handshake方言：

mlir 复制代码

handshake.func @vector_add(%a: memref<?xf32>, %b: memref<?xf32>, %c: memref<?xf32>, %n: i32, ...) -> (...) {
  %i_init = constant 0 : i32
  %step = constant 1 : i32
  
  %loop_init = handshake.merge %i_init, %i_next : i32
  %cond = cmpf "slt", %loop_init, %n : i32
  %i_next = addi %loop_init, %step : i32
  
  // 数据流图的其余部分...
}

这个表示将控制流转换为数据流，更接近硬件实现。

步骤4：生成RTL表示（使用RTL方言）

最后，转换为RTL级描述：

mlir 复制代码

rtl.module @vector_add(%clk: i1, %rst: i1, ...) {
  rtl.reg @i : i32
  
  rtl.always posedge %clk {
    rtl.if %rst {
      rtl.sv.passign @i, %c0 : i32
    } else {
      // RTL实现的其余部分...
    }
  }
}

这个表示已经非常接近最终的Verilog/VHDL代码，包含寄存器、时钟和复位信号。

MLIR在设计自动化中的其他应用

除了HLS，MLIR在设计自动化的其他领域也有广泛的应用：

1. 逻辑综合

使用MLIR的Dialect描述逻辑电路的结构和功能
应用MLIR的Pass进行逻辑优化（如门级优化、时序优化）
将优化后的电路描述映射到目标器件（如FPGA或ASIC）

2. 硬件/软件协同设计

使用MLIR统一表示硬件和软件部分
探索不同的硬件/软件分区方案
优化硬件/软件接口

3. 领域特定加速器设计

从领域特定语言（如TensorFlow、PyTorch）生成硬件加速器
优化特定领域的计算模式（如卷积、矩阵乘法）
生成定制化的硬件架构

MLIR在设计层次中的定位

MLIR在设计层次中的定位可以分为三个主要层次：

1. 高层次抽象

在高层次抽象中，MLIR用于表示算法和应用逻辑，关注数据流和计算步骤：

算法描述：使用Dialect描述特定领域的算法（如机器学习、信号处理）
优化和并行化：识别数据并行性和流水线机会
适用的Dialect：Tensor、Linalg、Affine等

2. 中层次抽象

在中层次抽象中，MLIR可以用于表示硬件架构和资源分配：

资源映射：将计算任务映射到硬件资源（如DSP、BRAM）
调度和分配：优化计算任务的执行顺序和资源使用
适用的Dialect：HLS、Memory、Vector等

3. 低层次抽象

在低层次抽象中，MLIR用于生成具体的硬件描述：

硬件生成：将中间表示转换为Verilog或VHDL代码
目标优化：根据特定FPGA或ASIC架构进行优化
适用的Dialect：RTL、FIRRTL、LLHD等

现代HLS工具中的MLIR应用

目前，一些现代HLS和设计自动化工具已经开始集成MLIR：

CIRCT (Circuit IR Compilers and Tools)：LLVM基金会支持的项目，使用MLIR开发硬件编译器基础设施。
Xilinx Vitis HLS：Xilinx正在探索使用MLIR改进其HLS编译流程。
Intel OneAPI：Intel的OneAPI包含对MLIR的支持，用于优化异构计算。
TVM (Tensor Virtual Machine)：使用MLIR优化深度学习模型的部署，包括FPGA目标。

MLIR的优势与挑战

优势

统一的表示：提供从高层算法到低层硬件的统一表示，简化工具链
可扩展性：通过Dialect系统支持新的语言、架构和优化
多层次优化：允许在不同抽象级别上进行优化，提高设计质量
设计空间探索：支持自动化的设计空间探索，找到最佳设计点
社区支持：作为LLVM项目的一部分，享有广泛的社区支持

挑战

学习曲线：MLIR的概念和API相对复杂，需要时间学习
工具支持：作为相对新的技术，工具支持仍在发展中
性能验证：需要验证MLIR是否能提供与专用编译器相当的性能
集成成本：与现有工具链集成可能需要大量工作

未来展望

MLIR在HLS和设计自动化领域有着广阔的应用前景：

统一的硬件/软件编译流程：使用MLIR表示从软件到硬件的整个编译过程，支持更高效的硬件/软件协同优化
领域特定硬件加速：使用MLIR自动从领域特定语言生成优化的硬件加速器
智能EDA工具：结合MLIR和机器学习，开发更智能的EDA工具，自动优化设计决策
开源HLS生态系统：基于MLIR建立开源的HLS生态系统，促进创新和标准化

结论

Multi-Level Intermediate Representation (MLIR) 为HLS和设计自动化领域提供了一个强大的统一框架，能够表示从高层算法到低层硬件的多个抽象级别，并支持在这些级别之间进行转换和优化。通过使用MLIR，HLS工具可以实现更高效、更灵活的编译流程，从而生成更优化的硬件实现。

尽管MLIR仍在发展中，但它已经显示出在改进HLS和设计自动化领域的巨大潜力。随着更多工具和项目采用MLIR，我们可以期待看到更高效、更灵活的硬件设计方法的出现，最终推动硬件设计自动化的新时代。