TVM简介

TVM

FGPA,CPU, GPU

1.什么是TVM?

是一个支持GPU,CPU,FPGA指令生成的开源编译器框架

2.特点

基于图和算符结构来优化指令生成,最大化硬件执行效率。其中使用了很多方法

来改善硬件执行速度,包括算符融合、数据规划、基于机器学习的优化器等。它

向上对接Tensorflow、Pytorch等深度学习框架,向下兼容GPU、CPU、ARM、

TPU等硬件设备。

3.整体架构

TVM是一个端到端的指令生成器。

整个架构是基于图描述结构,不论是对指令的优化还是指令生成,一个图结构

清晰的描述了数据流方向,操作之间的依赖关系等。

4.主要特点

1、基于GPU、TPU等硬件架构,将张量运算作为一个基本的算符,通过把一个深

度学习网络描述成图结构来抽象出数据计算流程。在这样的图结构基础上,更方便

记忆优化。同时能够有更好的向上向下兼容性,同时支持多种深度学习框架和硬件

架构。

2、巨大的优化搜索空间。在优化图结构方面,其不再局限于通过某一种方式,而是

通过机器学习方法来搜索可能的空间来最大化部署效率。这种方式虽然会导致编译器

较大的计算量,但是更加通用。

TVM提供了一个非常简单的端到端用户接口,通过调用TVM的API可以很方便的进行

硬件部署。比如:

python 复制代码
import tvm as t

# 将keras模型输入到TVM,指定部署的硬件GPU,然后进行优化和代码生成。
graph, params = t.fronted.from_keras(keras_model)
target = t.target.cuda()
graph, lib, params = t.compiler.build(graph, target, params)

TVM也提供了Java、C++和python界面供用户统一调用。

5.图结构基本优化

TVM图优化策略:

算符融合:将可以在硬件上用一个算符完成的多个连续运算合并;

常量折叠:将可以预先计算的数据放在编译器中完成,减少硬件计算;

存储规划:预先为中间数据分配存储空间来存储中间值,避免中间数据无法存储在片上而增加片外

存储开销;

数据规划:重新排列数据有利于硬件计算。

6.张量计算

TVM采用Halide思想,通过使用schedule来对张量计算进行等价变换,从中计算出执行效率最高的

schedule结构。整个schedule流程如下:

还增加了三种针对GPU和TPU的schedule方式:spicile memory scope,

tensorrization, latency hiding。

并行化计算:

需要考虑两点问题:并行度、数据共享。

TVM提出了memory scope的概念,其将数据计算进行可并行和不可并行分类,对于可以并行计算的,

就可以使用多线程来并行计算,而不可并行,则需要等待被依赖数据计算完成。

存储读写优化

7.自动优化器

一个机器学习模型来寻找最优化的schedule结构。其包含两部分:一部分是基于schedule方式产生

所有可能的计算结构;另外一个是机器学习代驾模型来预测可能性。

8.编译流程

相关推荐
MARIN_shen14 小时前
PCB之电源完整性之电源网络的PDN仿真CST---08
网络·单片机·硬件工程·pcb工艺
XINVRY-FPGA1 天前
XC95288XL-10TQG144I Xilinx AMD CPLD
arm开发·单片机·嵌入式硬件·mcu·fpga开发·硬件工程·fpga
i道i1 天前
Verilog 利用伪随机,时序,按键消抖等,实现一个(打地鼠)游戏
游戏·fpga开发·verilog
奋斗的牛马1 天前
OFDM理解
网络·数据库·单片机·嵌入式硬件·fpga开发·信息与通信
ThreeYear_s1 天前
【FPGA+DSP系列】——PWM电平光耦转换电路实验分析----电路原理分析,器件选型
单片机·嵌入式硬件·fpga开发
FPGA_小田老师2 天前
FPGA语法基础(一):Verilog 数组清零方法详解
fpga开发·verilog语法·数组清零·verilog数组清零
奋斗的牛马2 天前
FPGA--zynq学习 PS与PL交互(二) HP接口
单片机·嵌入式硬件·学习·fpga开发·信息与通信
ThreeYear_s2 天前
【FPGA+DSP系列】——CCS联合proteus仿真DSP工程,以TMS320f28027芯片为例,LED闪烁仿真。
单片机·fpga开发·proteus
LCMICRO-133108477462 天前
长芯微LPS5820完全P2P替代NCP51820,LPS5820 是一款高速半桥驱动器,可用来驱动半 桥功率拓扑的 GaN 功率管。
stm32·单片机·嵌入式硬件·fpga开发·硬件工程
云雾J视界3 天前
预测电流控制在光伏逆变器中的低延迟实现:华为FPGA加速方案与并网稳定性验证
华为·fpga开发·dsp·光伏逆变器·mpcc