EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models

UnknownBody2023-09-22 23:52

本文是LLM系列文章，针对《EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models》的翻译。

EdgeMoE：基于MoE的大型语言模型的快速设备推理

摘要
[1 引言](#1 引言)
[2 实验与分析](#2 实验与分析)
[3 EDGEMOE设计](#3 EDGEMOE设计)
[4 评估](#4 评估)
[5 相关工作](#5 相关工作)
[6 结论](#6 结论)

摘要

GPT和LLaMa等大型语言模型（LLM）由于其在广泛的机器学习任务中的卓越能力，迎来了机器智能的一场革命。然而，LLM从数据中心向边缘设备的过渡带来了一系列挑战和机遇。虽然这种转变可以增强隐私和可用性，但这些模型的巨大参数大小阻碍了这种转变，导致不切实际的运行时成本。

鉴于这些考虑，我们介绍了EdgeMoE，这是第一个为专家（MoE）LLM的混合量身定制的设备上推理引擎，这是稀疏LLM的一种流行变体，其参数大小尺度显示出几乎恒定的计算复杂性。EdgeMoE通过在存储层次结构中战略性地划分模型，实现了内存和计算效率。具体而言，非专家权重存储在设备的存储器中，而专家权重则保存在外部存储器中，只有在激活时才会被提取到存储器中。这一设计的基础是一个关键的见解，即专家权重虽然庞大，但由于激活模式稀疏，很少被访问。为了进一步减轻与专家I/O交换相关的开销，EdgeMoE结合了两种创新技术：（1）专家位宽自适应：这种方法在可接受的精度损失水平上减少了专家权重的大小。（2）专家管理：它提前预测将被激活的专家，并将其预加载到计算机I/O管道中，从而进一步优化流程。在对成熟的MoE LLM和各种边缘设备进行的经验评估中，与竞争对手的基线解决方案相比，EdgeMoE展示了显著的内存节约和性能改进。

1 引言

2 实验与分析

3 EDGEMOE设计

4 评估

5 相关工作

6 结论

在这项工作中，我们提出了EdgeMoE，这是第一个用于混合专家（MoE）LLM的设备上推理引擎。EdgeMoE集成了两种创新技术：特定于专家的位宽自适应，在可接受的精度损失的情况下减少专家大小，以及专家预加载，它可以预测激活的专家并使用计算机I/O管道预加载他们。大量实验表明，EdgeMoE能够在边缘CPU和GPU平台上对MoE LLM进行实时推理，同时保持可容忍的精度损失。