MindIE 1.0.RC1 发布,华为昇腾终于推出了针对LLM的完整部署方案,结束小米加步枪时代

随着 ChatGPT 的现象级走红,引领了AI大模型时代的变革,从而导致 AI 算力日益紧缺。与此同时,中美贸易战以及美国对华进行AI芯片相关的制裁导致 AI 算力的国产化适配势在必行。之前也分享过一些国产 AI 芯片 和 AI 框架。

另外,我撰写的大模型相关的博客及配套代码 均整理放置在Github:llm-action,有需要的朋友自取。

华为昇腾LLM落地可选解决方案中,我们提到 MindIE 说是 4 月底正式发布,果然官网有相关文档了。MindIE 1.0.RC1 发布,昇腾终于结束了小米加步枪部署LLM的时代了。

MindIE 简介

MindIE(Mind Inference Engine,昇腾推理引擎)是华为昇腾针对AI全场景业务的推理加速套件。通过分层开放AI能力,支撑用户多样化的AI业务需求,使能百模千态,释放昇腾硬件设备算力。向上支持多种主流AI框架,向下对接不同类型昇腾AI处理器,提供多层次编程接口,帮助用户快速构建基于昇腾平台的推理业务。

MindIE 架构图

MindIE提供了基于多种AI场景下的推理解决方案,具有强大的性能、健全的生态,帮助用户快速开展业务迁移、业务定制。MindIE主要分为以下四部分,架构图如下所示。

服务化层

MindIE-Service,服务化框架,提供高性能推理服务部署与运维能力。MindIE-Server作为推理服务端,提供模型服务化能力;MindIE-Client提供服务客户端标准API,简化用户服务调用;MindIE-MS提供服务策略管理、运维能力,即将推出。

模型应用层

MindIE-SD: 面向视图生成场景的高性能推理框架。

MindIE-LLM:大语言模型推理框架。

框架插件层

框架插件: PyTorch推理加速插件框架,支持模型迁移推理。

推理运行时

MindIE-RT: 推理运行时。提供推理应用接口,集成图编译、图运行能力;提供高性能算子加速库MindIE-ATB,集成Transformer 融合大算子API及实现,供用户手动搭建模型,实现高性能推理。

MindIE 核心组件

编号 描述 目的
1 MindIE-Service MindIE-Service针对通用模型的推理服务化场景,实现开放、可扩展的推理服务化平台架构,支持对接业界主流推理框架接口,满足大语言模型等多类型模型的高性能推理需求。MindIE-Server作为推理服务端,提供模型服务化能力;MindIE-Client提供服务客户端标准API,简化用户服务调用。
2 MindIE-Torch MindIE-Torch是针对Pytorch框架模型的推理加速插件。Pytorch框架上训练的模型利用MindIE-Torch提供的简易C++/Python接口,少量代码即可完成模型迁移,实现高性能推理。MindIE-Torch向下调用了MindIE-RT组件能力。
3 MindIE-RT MindIE-RT是针对昇腾AI处理器的推理加速引擎,提供AI模型推理场景下的部署能力,能够将不同的深度学习框架(PyTorch、ONNX等)上完成训练的算法模型统一为计算图表示,具备多粒度模型优化、整图下发以及推理部署等功能。支持大模型高性能算子,提供面向Transformer模型的加速库(Ascend Transformer Boost),提高Transformer模型性能。ATB提供了基础的高性能的算子,和一种高效的算子组合技术(Graph),方便模型加速。各类模型推理框架可以使用。

关键功能特性

  • 服务化部署:提供用户侧接口、调度优化、多模型业务串流等能力。提供模型管理,自动扩缩容,DevOps等服务化调度能力。
  • 大模型推理:提供大模型推理能力,支持大模型业务全流程,逐级能力开放,使能大模型客户需求定制化。
  • Pytorch模型迁移:对接主流Pytorch框架,实现训练到推理的平滑迁移,提供通用的图优化并行推理能力,提供用户深度定制优化能力。

支持的模型

目前 1.0.RC1 版本支持的模型有 baichuan、bloom、deepseek、internlm、mixtral、qwen2、starcoder、aquila、chatglm、gpt_neox、llama、qwen、telechat。

可以看到,对主流大模型的支持还是挺全的。同时,目前接口层面提供了对于流式的支持,但是目前还不支持多轮对话,需要通过一些折衷方法进行处理。

结语

本文简要介绍了 MindIE 基本特性,后续我也会推出一些MindIE相关的实战教程,如果大家感兴趣,请持续关注。

相关推荐
数字化营销工兵7 小时前
大语言模型(LLM)安全:十大风险、影响和防御措施
llm·大语言模型·数据安全·隐私保护
gz7seven15 小时前
BLIP-2模型的详解与思考
大模型·llm·多模态·blip·多模态大模型·blip-2·q-former
不爱说话郭德纲20 小时前
探索LLM前沿,共话科技未来
人工智能·算法·llm
我爱学Python!1 天前
解决复杂查询难题:如何通过 Self-querying Prompting 提高 RAG 系统效率?
人工智能·程序人生·自然语言处理·大模型·llm·大语言模型·rag
任某某01162 天前
第四期书生大模型实战营 - 基础岛闯关作业3 - 浦语提示词工程实践
llm
知来者逆3 天前
DrugLLM——利用大规模语言模型通过 Few-Shot 生成生物制药小分子
人工智能·语言模型·自然语言处理·llm·大语言模型·生物制药
waiting不是违停3 天前
MetaGPT实现多动作Agent
langchain·llm
HuggingFace4 天前
通用辅助生成: 使用任意辅助模型加速解码
llm
用户3157476081354 天前
带你在前端上玩转机器学习,从零去构建,训练一个模型!!
前端·机器学习·llm