模型部署 —— onnx和onnxruntime

文章内容:介绍onnx相关基础知识和onnxruntime重要特性。

ONNX 介绍

ONNX(Open Neural Network Exchange)是一套开放的神经网络模型表示标准,旨在解决AI框架生态碎片化问题。主流深度学习框架(如PyTorch、TensorFlow)均可将训练完成的模型导出为ONNX格式,实现跨框架、跨平台的模型互操作。其核心价值在于标准化:通过定义统一的计算图结构和算子语义,使模型可脱离训练框架,在多种推理环境(云端服务器、移动端设备、边缘计算终端)中无缝部署。学习ONNX的必要性在于打破技术壁垒------当开发者需要将PyTorch模型部署到TensorFlow生态,或为工业设备集成跨平台AI能力时,ONNX能显著降低模型转换成本,避免重复开发。当前90%的主流推理引擎(如TensorRT、OpenVINO)均已原生支持ONNX,掌握其使用已成为AI工程化落地的关键技能。

关于onnx的使用,网上有很多文章,这里不再赘述。这里主要整理onnx proto的结构:

proto对象 内容 实例化关系
ModelProto Model info. model
GraphProto graph=(initializer=list[TensorProto], node=list[NodeProto], input=list[ValueInfoProto], output=list[ValueInfoProto], value_info=list[ValueInfoProto]) 1. 通过Node的input/output名称连接成DAG有向图 2. input/output中包含模型输入输出的数据结构 3. initializer中包含全部node input/output的tensor数据(如权重) 4. value_info中包含全部 tensor 的数据结构 model.graph
NodeProto node=(list[input_name=str], list[output_name=str], name=str, op_type=str, list[attribute=AttributeProto]) input_name output_name只是str,具体定义在graph的initializer和value_info中 graph.node
ValueInfoProto 包含shape、elem_type等,描述数据结构 graph.value_infograph.inputgraph.output
TensorProto tensor=(dims=, data_type, name=str, raw_data=bytes) graph.initializer
AttributeProto 通常包含字段 name、type 和其他包含int类型的数据 node.attribute

ONNXRuntime介绍

ONNX Runtime是针对ONNX模型优化的跨平台推理引擎,专为生产环境设计。其通过图优化、内核加速、硬件适配等技术,在CPU/GPU/专用AI芯片(如NPU)上均可实现低延迟、高吞吐的模型推理。典型应用场景包括:云端服务的实时推理(如自然语言处理API)、端侧设备的资源受限推理(如手机端图像分割),以及需要混合硬件调度的复杂场景(如多GPU服务器并行处理)。该引擎支持动态/静态图优化、量化加速、自定义算子扩展等特性,并与ONNX生态深度绑定。学习必要性体现在两方面:其一,在相同硬件条件下,ONNX Runtime相比原生框架推理速度平均提升1.5-4倍;其二,其提供Python/C++/C#等多语言API,可快速对接现有工程系统。对于需要兼顾性能与部署效率的AI应用,ONNX Runtime已成为工业级落地的首选方案。

软件架构:

  • 分层架构:

    • 前端接口C/C++ Python......
    • IR,图解析器 + 动态shape推理引擎
    • 执行抽象层,Execution Provider定义,支持异构计算拓展
    • 后端实现层,EP插件,实现GPU、CPU......,支持单图多Backend
  • 重要模块:

    • InferenceSession:资源配置和管理
    • Graph Transformer:图优化器
    • Arena-based内存池 +跨EP内存共享
    • 多线程、异步调度线程池
  • 支持拓展:

    • 自定义算子、自定义EP、自定义图优化

使用帮助可以参考 www.shaogui.life/posts/31143...

相关推荐
提子拌饭1331 小时前
风息时钟:鸿蒙Flutter 实现的自然风格时钟应用
flutter·华为·架构·开源·harmonyos
科技小花4 小时前
数据治理平台架构演进观察:AI原生设计如何重构企业数据管理范式
数据库·重构·架构·数据治理·ai-native·ai原生
2501_948114244 小时前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
FserSuN4 小时前
LangChain DeepAgent 多 Agent 架构原理学习
架构·langchain
坏孩子的诺亚方舟4 小时前
RTL设计师攻略0_架构与微架构
架构·cpu·面试攻略
智星云算力5 小时前
本地GPU与租用GPU混合部署:混合算力架构搭建指南
人工智能·架构·gpu算力·智星云·gpu租用
熊猫钓鱼>_>6 小时前
从“流程固化“到“意图驱动“:大模型调智能体调Skill架构深度解析
ai·架构·大模型·llm·agent·skill·openclaw
Agent产品评测局7 小时前
互联网行业自动化平台选型,运营全流程提效指南:2026企业级智能体架构与实战全解析
运维·人工智能·ai·chatgpt·架构·自动化
AI成长日志8 小时前
【AI原生开发实战】1.2 传统开发 vs AI原生开发:思维转变与架构差异
服务器·架构·ai-native
戮戮8 小时前
Spring Cloud Gateway 零拷贝参数校验:一种高性能网关架构实践
java·网络·架构·gateway