c++加载TensorRT调用深度学习模型方法

使用TensorRT来调用训练好的模型并输出结果是一个高效的推理过程,特别是在需要低延迟和高吞吐量的应用场景中。以下是一个基本的步骤指南,展示了如何在C++中使用TensorRT进行推理。

步骤1:准备环境

  1. 安装TensorRT:确保你已经安装了NVIDIA TensorRT库。
  2. 准备模型:确保你的训练好的模型已经转换为TensorRT支持的格式,通常是一个.engine文件。你可以使用onnx-tensorrt、TensorFlow-TensorRT等工具将模型转换为TensorRT引擎。

步骤2:编写C++代码

以下是一个简单的C++代码示例,演示如何加载TensorRT引擎并执行推理。

cpp复制代码

|---|-------------------------------------------------------------------------------------------------------------------------|
| | #include <NvInfer.h> |
| | #include <NvInferRuntime.h> |
| | #include <cuda_runtime_api.h> |
| | #include <fstream> |
| | #include <iostream> |
| | #include <memory> |
| | #include <vector> |
| | |
| | // Logger for TensorRT info/warning/errors |
| | class Logger : public nvinfer1::ILogger { |
| | public: |
| | void log(Severity severity, const char* msg) noexcept override { |
| | // Filter out info-level messages |
| | if (severity != Severity::kINFO) |
| | std::cout << msg << std::endl; |
| | } |
| | }; |
| | |
| | std::vector<char> readFile(const std::string& filepath) { |
| | std::ifstream file(filepath, std::ios::binary | std::ios::ate); |
| | if (!file.is_open()) { |
| | throw std::runtime_error("Unable to open file " + filepath); |
| | } |
| | size_t size = file.tellg(); |
| | file.seekg(0, std::ios::beg); |
| | std::vector<char> buffer(size); |
| | file.read(buffer.data(), size); |
| | return buffer; |
| | } |
| | |
| | void inference(const std::string& enginePath, const std::vector<float>& inputData) { |
| | // Logger |
| | Logger logger; |
| | |
| | // Read the engine file |
| | std::vector<char> engineData = readFile(enginePath); |
| | std::istringstream engineStream(std::string(engineData.begin(), engineData.end())); |
| | |
| | // Deserialize the engine |
| | IRuntime* runtime = createInferRuntime(logger); |
| | ICudaEngine* engine = runtime->deserializeCudaEngine(engineStream); |
| | |
| | // Create execution context |
| | IExecutionContext* context = engine->createExecutionContext(); |
| | |
| | // Allocate GPU memory |
| | void* buffers[2]; |
| | cudaMalloc(&buffers[0], inputData.size() * sizeof(float)); // Input buffer |
| | float* outputData = nullptr; |
| | cudaMalloc(&buffers[1], engine->getBindingDimensions(1).d[0] * sizeof(float)); // Output buffer |
| | |
| | // Copy input data to GPU |
| | cudaMemcpy(buffers[0], inputData.data(), inputData.size() * sizeof(float), cudaMemcpyHostToDevice); |
| | |
| | // Set dynamic input dimensions if needed (omitting for simplicity) |
| | |
| | // Run inference |
| | context->enqueue(batchSize, buffers, 0, nullptr); |
| | |
| | // Synchronize the stream |
| | cudaStreamSynchronize(context->getStream()); |
| | |
| | // Copy the output data to the host |
| | outputData = new float[engine->getBindingDimensions(1).d[0]]; |
| | cudaMemcpy(outputData, buffers[1], engine->getBindingDimensions(1).d[0] * sizeof(float), cudaMemcpyDeviceToHost); |
| | |
| | // Print the output data (or process it as needed) |
| | std::cout << "Output data: "; |
| | for (int i = 0; i < engine->getBindingDimensions(1).d[0]; ++i) { |
| | std::cout << outputData[i] << " "; |
| | } |
| | std::cout << std::endl; |
| | |
| | // Clean up |
| | delete[] outputData; |
| | cudaFree(buffers[0]); |
| | cudaFree(buffers[1]); |
| | context->destroy(); |
| | engine->destroy(); |
| | runtime->destroy(); |
| | } |
| | |
| | int main() { |
| | // Path to the TensorRT engine file |
| | std::string enginePath = "your_model.engine"; |
| | |
| | // Example input data (must match the model's input dimensions) |
| | std::vector<float> inputData = { /* Populate with your input data */ }; |
| | |
| | // Run inference |
| | try { |
| | inference(enginePath, inputData); |
| | } catch (const std::exception& ex) { |
| | std::cerr << "Error: " << ex.what() << std::endl; |
| | return EXIT_FAILURE; |
| | } |
| | |
| | return EXIT_SUCCESS; |
| | } |

注意事项

  1. 输入数据:确保输入数据的维度和类型与你的模型匹配。
  2. 动态维度:如果你的模型包含动态输入维度,需要在创建执行上下文后设置这些维度。
  3. 错误处理:实际代码中应包含更多的错误处理逻辑,以应对各种可能的异常情况。
  4. 优化:TensorRT提供了多种优化选项,例如使用FP16进行推理以减少内存带宽和计算需求,你可以根据需求进行调整。

编译和运行

确保你的编译命令链接了TensorRT和CUDA库。例如:

sh复制代码

|---|-----------------------------------------------------------------------------------------------|
| | g++ -o tensorrt_inference tensorrt_inference.cpp -lnvinfer -lnvinfer_runtime -lcudart -lcudnn |
| | ./tensorrt_inference |

希望这个示例能帮助你理解如何在C++中使用TensorRT进行推理。

相关推荐
لا معنى له1 小时前
残差网络论文学习笔记:Deep Residual Learning for Image Recognition全文翻译
网络·人工智能·笔记·深度学习·学习·机器学习
菜只因C1 小时前
深度学习:从技术本质到未来图景的全面解析
人工智能·深度学习
Allen_LVyingbo2 小时前
面向医学影像检测的深度学习模型参数分析与优化策略研究
人工智能·深度学习
Coding茶水间4 小时前
基于深度学习的PCB缺陷检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·计算机视觉
大千AI助手4 小时前
Softmax函数:深度学习中的多类分类基石与进化之路
人工智能·深度学习·机器学习·分类·softmax·激活函数·大千ai助手
韩曙亮4 小时前
【人工智能】AI 人工智能 技术 学习路径分析 ② ( 深度学习 -> 机器视觉 )
人工智能·深度学习·学习·ai·机器视觉
黑客思维者4 小时前
Salesforce Einstein GPT 人机协同运营的核心应用场景与工作流分析
人工智能·gpt·深度学习·salesforce·rag·人机协同·einstein gpt
薛定e的猫咪5 小时前
【论文精读】ICLR 2023 --- 作为离线强化学习强表达能力策略类的扩散策略
人工智能·深度学习·机器学习·stable diffusion
子午7 小时前
【食物识别系统】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积网络+resnet50算法
人工智能·python·深度学习
Dev7z7 小时前
基于深度学习和图像处理的药丸计数与分类系统研究
图像处理·人工智能·深度学习