1、onnxruntime
具体细节可以访问ONNX Runtime | Home,并选择Quickstart,如下图所示。

对于初学者可以选择Tutorials,来结合字节的cuda环境来选择对应的onnxruntime版本。对其总结具体的要求如下:
1)CPU和GPU推理对操作系统的要求
- CPU: Windows 8.1+
- GPU: Windows 10 1709+ (这里指Windows 10要求其版本大于1709)
2)ONNX Opset运算集版本要求

3)onnxruntime与cuda cudnn关系要求

我cuda安装版本为12.x,cndnn为8.x,所以可选择1.17.x版本
4)gpu版本区别
在关联的github上可以看到gpu有两个版本,如下图所示

onnxruntime-gpu 是通用的GPU版本,特点包括:
支持多种GPU后端(CUDA、DirectML、TensorRT、ROCm等),通常不包含CUDA运行时库,需要用户自己安装对应的CUDA版本,体积相对较小,需要手动配置CUDA/cuDNN环境。适用于:需要灵活切换不同GPU后端的场景
onnxruntime-win-x64-gpu-cuda是特定平台的完整包,特点包括:专门为Windows x64平台优化,内置CUDA运行时库,无需单独安装CUDA,开箱即用,无需额外配置环境变量,体积较大(因为包含了CUDA相关库),版本号通常对应特定的CUDA版本(如11.6、12.0等)。适用于:希望简化部署、避免环境配置的用户。
基于简化部署,我选择的版本为onnxruntime-win-x64-gpu-cuda12-1.17.3版本。
2、onnxruntime C++部署