MegEngine 正式支持 XLA 啦!

XLA(Accelerated Linear Algebra)是 Google 提出的一个神经网络编译器,可以用于加速 AI 模型的训练和推理。MegEngine 1.13.1 中也已经支持了 XLA,在训练模型时可以选择开启此项功能,不同的模型可以获得 10%~80% 不等的速度提升。

主要的目标场景

MegEngine 现在是动态执行的,即 python 中每一个 mge.functional 的调用都对应着底层 gpu 上的一次 kernel 执行。这种模式的好处在于实际的执行方式与代码逻辑一致,所见即所得,非常的灵活;不过其问题是难以优化,性能可能不是最优。

而 XLA 采取静态执行的方式,会将模型计算过程表达成一张静态计算图,称为 "HLO" (High-Level Optimized)。HLO 中包含计算图的相关操作,张量的数据流程和形状等信息。XLA 随后会对 HLO 进行一系列的优化,并最终生成一个更优的计算图,从而更快的完成计算。而 XLA 的局限性就在于不够灵活,对于 Tensor Shape 改变或者控制流等信息无法很好的表达。

现在 MegEngine 中已经支持了 XLA,模型训练中一些比较静态的场景,我们可以使用 XLA 来进行加速,从而缩短整个训练过程的时间。

使用方法与效果

在使用 MegEngine 进行训练时,可以通过对原来的训练函数增加 xla_trace/partial_trace 装饰器来启用 XLA 编译优化。

当整个模型是完全静态时,我们可以使用 xla_trace 将整张网络表达成一张静态图,然后交由 XLA 做后续的优化编译,后续的执行过程将执行这张优化后的计算图提升速度。

而如果我们模型中有一些动态性,比如训练过程中一些 Tensor Shape 会发生变化,亦或者是存在控制流,我们可以使用 partial_trace,将网络中静态的部分 trace 成一些子图并分别交给 XLA 进行编译优化,而网络中其他部分仍然保持动态执行,同时保证性能与灵活性。

下面展示了在 MegEngine 中,XLA 功能开启前后,主流的神经网络模型性能变化。其中蓝色为 XLA 开启之前的训练速度,橙色为 XLA 开启之后的训练速度。在开启 XLA 后,大部分模型的性能可以获得 10%~40% 的提升,最多可以超过 80%。

关于 xla 的更多信息及具体的使用方法可以参考 www.megengine.org.cn/doc/stable/...

更多 MegEngine 信息获取,您可以:查看文档、和 GitHub 项目,或加入 MegEngine 用户交流 QQ 群:1029741705。欢迎参与 MegEngine 社区贡献,成为 Awesome MegEngineer,荣誉证书、定制礼品享不停。

相关推荐
埃菲尔铁塔_CV算法6 小时前
深度学习神经网络创新点方向
人工智能·深度学习·神经网络
哇咔咔哇咔8 小时前
【科普】简述CNN的各种模型
人工智能·神经网络·cnn
Jurio.14 小时前
【SPIE出版,EI稳定检索】2024年信号处理与神经网络应用国际学术会议(SPNNA 2024,12月13-15日)
图像处理·人工智能·深度学习·神经网络·机器学习·计算机视觉·信号处理
fanxbl95715 小时前
LVQ 神经网络的 MATLAB 函数详解
人工智能·神经网络·matlab
新手小白勇闯新世界18 小时前
点云论文阅读-1-pointnet++
论文阅读·人工智能·深度学习·神经网络·计算机视觉
千天夜19 小时前
激活函数解析:神经网络背后的“驱动力”
人工智能·深度学习·神经网络
清如许.1 天前
DNN云边协同工作汇总(持续更新)
人工智能·神经网络·dnn
Chef_Chen2 天前
从0开始机器学习--Day16--神经网络作业
人工智能·神经网络·机器学习
李歘歘2 天前
深度学习——前向传播与反向传播、神经网络(前馈神经网络与反馈神经网络)、常见算法概要汇总
深度学习·神经网络·算法
love_and_hope2 天前
Pytorch学习--神经网络--利用GPU训练
人工智能·pytorch·python·神经网络·学习·数据挖掘