EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models

本文是LLM系列文章,针对《EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models》的翻译。

EdgeMoE:基于MoE的大型语言模型的快速设备推理

  • 摘要
  • [1 引言](#1 引言)
  • [2 实验与分析](#2 实验与分析)
  • [3 EDGEMOE设计](#3 EDGEMOE设计)
  • [4 评估](#4 评估)
  • [5 相关工作](#5 相关工作)
  • [6 结论](#6 结论)

摘要

GPT和LLaMa等大型语言模型(LLM)由于其在广泛的机器学习任务中的卓越能力,迎来了机器智能的一场革命。然而,LLM从数据中心向边缘设备的过渡带来了一系列挑战和机遇。虽然这种转变可以增强隐私和可用性,但这些模型的巨大参数大小阻碍了这种转变,导致不切实际的运行时成本。

鉴于这些考虑,我们介绍了EdgeMoE,这是第一个为专家(MoE)LLM的混合量身定制的设备上推理引擎,这是稀疏LLM的一种流行变体,其参数大小尺度显示出几乎恒定的计算复杂性。EdgeMoE通过在存储层次结构中战略性地划分模型,实现了内存和计算效率。具体而言,非专家权重存储在设备的存储器中,而专家权重则保存在外部存储器中,只有在激活时才会被提取到存储器中。这一设计的基础是一个关键的见解,即专家权重虽然庞大,但由于激活模式稀疏,很少被访问。为了进一步减轻与专家I/O交换相关的开销,EdgeMoE结合了两种创新技术:(1)专家位宽自适应:这种方法在可接受的精度损失水平上减少了专家权重的大小。(2) 专家管理:它提前预测将被激活的专家,并将其预加载到计算机I/O管道中,从而进一步优化流程。在对成熟的MoE LLM和各种边缘设备进行的经验评估中,与竞争对手的基线解决方案相比,EdgeMoE展示了显著的内存节约和性能改进。

1 引言

2 实验与分析

3 EDGEMOE设计

4 评估

5 相关工作

6 结论

在这项工作中,我们提出了EdgeMoE,这是第一个用于混合专家(MoE)LLM的设备上推理引擎。EdgeMoE集成了两种创新技术:特定于专家的位宽自适应,在可接受的精度损失的情况下减少专家大小,以及专家预加载,它可以预测激活的专家并使用计算机I/O管道预加载他们。大量实验表明,EdgeMoE能够在边缘CPU和GPU平台上对MoE LLM进行实时推理,同时保持可容忍的精度损失。

相关推荐
jinxindeep7 小时前
CVPR26最佳论文提名:NitroGen,面向通用游戏智能体的 视觉-动作基础模型
人工智能·游戏
小雨下雨的雨11 小时前
井字棋AI机器人实现详解 - Minimax算法实战-鸿蒙PC Electron框架完成
前端·人工智能·算法·华为·electron·鸿蒙
我没胡说八道13 小时前
高校论文AI检测优化工具对比研究与实测分析(2026)
人工智能·深度学习·机器学习·计算机视觉·aigc·论文
秦亚伟13 小时前
AI浪潮重塑融资租赁行业新格局
人工智能
love530love13 小时前
LiveTalking 数字人项目 Windows 部署完全指南(EPGF 架构)
人工智能·windows·python·架构·livetalking·epgf
元启数宇13 小时前
喷淋AI布点实战:8小时人工布点→20分钟自动出图
人工智能
哈哈,柳暗花明13 小时前
人工智能专业术语详解(H)
人工智能·专业术语
圣殿骑士-Khtangc13 小时前
AI 编程工具 2026 实战横评:Cursor 3 vs Claude Code vs Copilot,开发者选型完全指南
人工智能·copilot
云器科技13 小时前
云器Lakehouse 2026年5月版本发布:拥抱 AI Agent,重塑数据智能开发新范式
人工智能
小鹰-上海鹰谷-电子实验记录本13 小时前
第六届党建引领科创生态座谈会 | 邓光辉博士出席分享AI赋能创新药科研新范式
人工智能·ai·电子实验记录本·药企合规