pytorch 模型部署

西木风落2024-09-06 21:16

AI模型部署基本步骤

在训练好模型后，需要将模型进行部署，一般情况下，AI模型部署基本步骤有：

获取模型文件
对模型进行转换，也就是所谓的parse或者convert
针对转换后的模型进行优化，可能涉及很多优化步骤
在特定平台上运行转化后的模型，保障模型的精度、性能

常见的模型部署推理框架：

Caffeine，纯c++编写
libtorch(torchscript)： pytorch的c++版。pytorch训练出来的模型，经员工torch.jit.trace或者torch.jit.script可以导出为.pt格式，随用通过libtorch中的API加载运行。一般结合TensorRT来部署，TensorRT负责简单卷积层等操作部分，libtorch负责后处理等细小复杂op部分。
TensorRT，可以再NVIDIA各种GPU硬件平台下运行的c++推理框架。在GPU服务器上部署的话，TensorRT是首选；
openVINO，在英特尔CPU端(也就是我们常用的x86处理器)部署首选它
NCNN/MNN/TNN/TVM，在移动端部署的推理框架，据说NCNN为首选，因其简单、直观明了。
paddlepaddle：国产不错的训练和推理框架；

AI部署中提速方法

上述AI模型部署步骤也提到，对模型进行优化，有哪些优化点呢？

模型结构
剪枝
蒸馏
稀疏化训练
量化训练
算子融合、计算图优化
底层优化

1. 模型结构

模型结构主要体现在更快更强的网络结构，比如ResNet相比于VGG，CenterNet相比于YOLOv3。这块没研究透，后续再探；

2. 剪枝

在大模型的基础上，对模型通道或者模型结构进行有目的地修剪，剪掉对模型推理贡献不是很重要的地方，保障精度下降很少或者几乎不变。

3. 蒸馏

先用大网络训练，然后再用大网络调教小网络，使小网络接近大网络的精度。

4. 稀疏化

就是随机将tensor中的部分元素置为0，比如常见的dropout，附带正则化作用的同时也减少了模型的容量，从而加快了模型的推理速度。

5. 量化训练

量化训练是在INT8精度的基础上对模型进行量化。简称QTA(Quantization Aware Training)。量化后的模型在特定CPU或者GPU上相比FP32、FP16有更高的速度和吞吐，也是部署提速方法之一。

模型训练后的转换方式

Pytorch->ONNX->trt onnx2trt
Pytorch->trt torch2trt
Pytorch->torchscipt->trt trtorch

上一篇：云计算之ECS

下一篇：Pytorch中不同的Norm归一化详细讲解

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03GitHub 镜像站点 04AI科技热点日报 | 2026年07月01日 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？082026 年 AI 大模型 & AI 编程工具实战全总结 09幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 10微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新