MindIE 1.0.RC1 发布,华为昇腾终于推出了针对LLM的完整部署方案,结束小米加步枪时代

随着 ChatGPT 的现象级走红,引领了AI大模型时代的变革,从而导致 AI 算力日益紧缺。与此同时,中美贸易战以及美国对华进行AI芯片相关的制裁导致 AI 算力的国产化适配势在必行。之前也分享过一些国产 AI 芯片 和 AI 框架。

另外,我撰写的大模型相关的博客及配套代码 均整理放置在Github:llm-action,有需要的朋友自取。

华为昇腾LLM落地可选解决方案中,我们提到 MindIE 说是 4 月底正式发布,果然官网有相关文档了。MindIE 1.0.RC1 发布,昇腾终于结束了小米加步枪部署LLM的时代了。

MindIE 简介

MindIE(Mind Inference Engine,昇腾推理引擎)是华为昇腾针对AI全场景业务的推理加速套件。通过分层开放AI能力,支撑用户多样化的AI业务需求,使能百模千态,释放昇腾硬件设备算力。向上支持多种主流AI框架,向下对接不同类型昇腾AI处理器,提供多层次编程接口,帮助用户快速构建基于昇腾平台的推理业务。

MindIE 架构图

MindIE提供了基于多种AI场景下的推理解决方案,具有强大的性能、健全的生态,帮助用户快速开展业务迁移、业务定制。MindIE主要分为以下四部分,架构图如下所示。

服务化层

MindIE-Service,服务化框架,提供高性能推理服务部署与运维能力。MindIE-Server作为推理服务端,提供模型服务化能力;MindIE-Client提供服务客户端标准API,简化用户服务调用;MindIE-MS提供服务策略管理、运维能力,即将推出。

模型应用层

MindIE-SD: 面向视图生成场景的高性能推理框架。

MindIE-LLM:大语言模型推理框架。

框架插件层

框架插件: PyTorch推理加速插件框架,支持模型迁移推理。

推理运行时

MindIE-RT: 推理运行时。提供推理应用接口,集成图编译、图运行能力;提供高性能算子加速库MindIE-ATB,集成Transformer 融合大算子API及实现,供用户手动搭建模型,实现高性能推理。

MindIE 核心组件

编号 描述 目的
1 MindIE-Service MindIE-Service针对通用模型的推理服务化场景,实现开放、可扩展的推理服务化平台架构,支持对接业界主流推理框架接口,满足大语言模型等多类型模型的高性能推理需求。MindIE-Server作为推理服务端,提供模型服务化能力;MindIE-Client提供服务客户端标准API,简化用户服务调用。
2 MindIE-Torch MindIE-Torch是针对Pytorch框架模型的推理加速插件。Pytorch框架上训练的模型利用MindIE-Torch提供的简易C++/Python接口,少量代码即可完成模型迁移,实现高性能推理。MindIE-Torch向下调用了MindIE-RT组件能力。
3 MindIE-RT MindIE-RT是针对昇腾AI处理器的推理加速引擎,提供AI模型推理场景下的部署能力,能够将不同的深度学习框架(PyTorch、ONNX等)上完成训练的算法模型统一为计算图表示,具备多粒度模型优化、整图下发以及推理部署等功能。支持大模型高性能算子,提供面向Transformer模型的加速库(Ascend Transformer Boost),提高Transformer模型性能。ATB提供了基础的高性能的算子,和一种高效的算子组合技术(Graph),方便模型加速。各类模型推理框架可以使用。

关键功能特性

  • 服务化部署:提供用户侧接口、调度优化、多模型业务串流等能力。提供模型管理,自动扩缩容,DevOps等服务化调度能力。
  • 大模型推理:提供大模型推理能力,支持大模型业务全流程,逐级能力开放,使能大模型客户需求定制化。
  • Pytorch模型迁移:对接主流Pytorch框架,实现训练到推理的平滑迁移,提供通用的图优化并行推理能力,提供用户深度定制优化能力。

支持的模型

目前 1.0.RC1 版本支持的模型有 baichuan、bloom、deepseek、internlm、mixtral、qwen2、starcoder、aquila、chatglm、gpt_neox、llama、qwen、telechat。

可以看到,对主流大模型的支持还是挺全的。同时,目前接口层面提供了对于流式的支持,但是目前还不支持多轮对话,需要通过一些折衷方法进行处理。

结语

本文简要介绍了 MindIE 基本特性,后续我也会推出一些MindIE相关的实战教程,如果大家感兴趣,请持续关注。

相关推荐
憨憨睡不醒啊13 小时前
如何让LLM智能体开发助力求职之路——构建属于你的智能体开发知识体系📚📚📚
面试·程序员·llm
柯南二号13 小时前
深入理解 Agent 与 LLM 的区别:从智能体到语言模型
人工智能·机器学习·llm·agent
Q同学16 小时前
TORL:工具集成强化学习,让大语言模型学会用代码解题
深度学习·神经网络·llm
人肉推土机19 小时前
AI Agent 架构设计:ReAct 与 Self-Ask 模式对比与分析
人工智能·大模型·llm·agent
洗澡水加冰19 小时前
n8n搭建多阶段交互式工作流
后端·llm
中杯可乐多加冰1 天前
【解决方案-RAGFlow】RAGFlow显示Task is queued、 Microsoft Visual C++ 14.0 or greater is required.
人工智能·大模型·llm·rag·ragflow·deepseek
Baihai IDP1 天前
“一代更比一代强”:现代 RAG 架构的演进之路
ai·llm·rag·genai·白海科技·检索增强生成
Q同学2 天前
Qwen3开源最新Embedding模型
深度学习·神经网络·llm
用户84913717547162 天前
🚀 为什么猫和狗更像?用“向量思维”教会 AI 懂语义!
人工智能·llm
AI大模型知识2 天前
Qwen3+Ollama本地部署MCP初体验
人工智能·llm