MindIE 1.0.RC1 发布,华为昇腾终于推出了针对LLM的完整部署方案,结束小米加步枪时代

随着 ChatGPT 的现象级走红,引领了AI大模型时代的变革,从而导致 AI 算力日益紧缺。与此同时,中美贸易战以及美国对华进行AI芯片相关的制裁导致 AI 算力的国产化适配势在必行。之前也分享过一些国产 AI 芯片 和 AI 框架。

另外,我撰写的大模型相关的博客及配套代码 均整理放置在Github:llm-action,有需要的朋友自取。

华为昇腾LLM落地可选解决方案中,我们提到 MindIE 说是 4 月底正式发布,果然官网有相关文档了。MindIE 1.0.RC1 发布,昇腾终于结束了小米加步枪部署LLM的时代了。

MindIE 简介

MindIE(Mind Inference Engine,昇腾推理引擎)是华为昇腾针对AI全场景业务的推理加速套件。通过分层开放AI能力,支撑用户多样化的AI业务需求,使能百模千态,释放昇腾硬件设备算力。向上支持多种主流AI框架,向下对接不同类型昇腾AI处理器,提供多层次编程接口,帮助用户快速构建基于昇腾平台的推理业务。

MindIE 架构图

MindIE提供了基于多种AI场景下的推理解决方案,具有强大的性能、健全的生态,帮助用户快速开展业务迁移、业务定制。MindIE主要分为以下四部分,架构图如下所示。

服务化层

MindIE-Service,服务化框架,提供高性能推理服务部署与运维能力。MindIE-Server作为推理服务端,提供模型服务化能力;MindIE-Client提供服务客户端标准API,简化用户服务调用;MindIE-MS提供服务策略管理、运维能力,即将推出。

模型应用层

MindIE-SD: 面向视图生成场景的高性能推理框架。

MindIE-LLM:大语言模型推理框架。

框架插件层

框架插件: PyTorch推理加速插件框架,支持模型迁移推理。

推理运行时

MindIE-RT: 推理运行时。提供推理应用接口,集成图编译、图运行能力;提供高性能算子加速库MindIE-ATB,集成Transformer 融合大算子API及实现,供用户手动搭建模型,实现高性能推理。

MindIE 核心组件

编号 描述 目的
1 MindIE-Service MindIE-Service针对通用模型的推理服务化场景,实现开放、可扩展的推理服务化平台架构,支持对接业界主流推理框架接口,满足大语言模型等多类型模型的高性能推理需求。MindIE-Server作为推理服务端,提供模型服务化能力;MindIE-Client提供服务客户端标准API,简化用户服务调用。
2 MindIE-Torch MindIE-Torch是针对Pytorch框架模型的推理加速插件。Pytorch框架上训练的模型利用MindIE-Torch提供的简易C++/Python接口,少量代码即可完成模型迁移,实现高性能推理。MindIE-Torch向下调用了MindIE-RT组件能力。
3 MindIE-RT MindIE-RT是针对昇腾AI处理器的推理加速引擎,提供AI模型推理场景下的部署能力,能够将不同的深度学习框架(PyTorch、ONNX等)上完成训练的算法模型统一为计算图表示,具备多粒度模型优化、整图下发以及推理部署等功能。支持大模型高性能算子,提供面向Transformer模型的加速库(Ascend Transformer Boost),提高Transformer模型性能。ATB提供了基础的高性能的算子,和一种高效的算子组合技术(Graph),方便模型加速。各类模型推理框架可以使用。

关键功能特性

  • 服务化部署:提供用户侧接口、调度优化、多模型业务串流等能力。提供模型管理,自动扩缩容,DevOps等服务化调度能力。
  • 大模型推理:提供大模型推理能力,支持大模型业务全流程,逐级能力开放,使能大模型客户需求定制化。
  • Pytorch模型迁移:对接主流Pytorch框架,实现训练到推理的平滑迁移,提供通用的图优化并行推理能力,提供用户深度定制优化能力。

支持的模型

目前 1.0.RC1 版本支持的模型有 baichuan、bloom、deepseek、internlm、mixtral、qwen2、starcoder、aquila、chatglm、gpt_neox、llama、qwen、telechat。

可以看到,对主流大模型的支持还是挺全的。同时,目前接口层面提供了对于流式的支持,但是目前还不支持多轮对话,需要通过一些折衷方法进行处理。

结语

本文简要介绍了 MindIE 基本特性,后续我也会推出一些MindIE相关的实战教程,如果大家感兴趣,请持续关注。

相关推荐
bastgia1 天前
Tokenformer: 下一代Transformer架构
人工智能·机器学习·llm
新智元1 天前
李飞飞谢赛宁:多模态 LLM「空间大脑」觉醒,惊现世界模型雏形!
人工智能·llm
RWKV元始智能2 天前
RWKV-7:极先进的大模型架构,长文本能力极强
人工智能·llm
zaim12 天前
计算机的错误计算(一百八十七)
人工智能·ai·大模型·llm·错误·正弦/sin·误差/error
张拭心2 天前
Google 提供的 Android 端上大模型组件:MediaPipe LLM 介绍
android·人工智能·llm
带电的小王2 天前
whisper.cpp: Android端测试 -- Android端手机部署音频大模型
android·智能手机·llm·whisper·音频大模型·whisper.cpp
带电的小王3 天前
whisper.cpp: PC端测试 -- 电脑端部署音频大模型
llm·whisper·音视频·音频大模型
Ambition_LAO3 天前
LLaMA-Factory QuickStart 流程详解
llm·llama
宇梵文书C3 天前
在CFFF云平台使用llama-factory部署及微调Qwen2.5-7B-Instruct
llm·llama·cfff
zaim13 天前
计算机的错误计算(一百八十六)
人工智能·python·ai·大模型·llm·误差·decimal