深度学习开发笔记(一):跨平台纯C++训练和推理框架LibTorch介绍、开发环境搭建和Demo

前言

为了让一些应用具备部署的应用就具有训练能力,又为了减少其依赖能力,设想事兼具性能和训练,于是开始研究深度学习模型推理方法。

本文旨在寻找一个训练解决方案,其能在 PC、Linux、ARM 板卡(如树莓派、瑞芯微、英伟达 Jetson)上都能直接C++训练、训练+推理一体、跨平台、不依赖 Python、轻量、可移植的深度学习框架。

通过研究,发现LibTorch(PyTroch C++前端)可以满足。

LibTorch(PyTroch C++前端)

简介

在深度学习开发中,Python 凭借简洁的语法成为训练首选,但在工业部署、嵌入式设备、跨平台原生应用场景中,Python环境依赖、性能损耗、兼容性问题成为瓶颈。我们目前需要一套无 Python 依赖、支持多平台、可训练可推理的纯 C++ 解决方案(直接融合到应用中,进入工厂/专家模式可进行训练)。

LibTorch作为 PyTorch 的官方C++前端,完美解决了这一痛点:它继承了 PyTorch的核心能力,支持模型定义、前向传播、反向传播、训练优化、模型保存加载全流程,且原生兼容Windows、Linux、ARM等全平台,真正实现 "一次编码,多端运行"。

本系列将从零开始,带你使用 LibTorch 实现纯 C++ 深度学习模型训练和推理。

核心优势

  • 纯 C++ 全栈能力:无需 Python,C++ 完成训练 + 推理,零环境依赖,直接集成到原生项目;
  • 跨平台原生支持:完美支持 Windows (x86)、Linux (x86/ARM)、树莓派、Jetson 等硬件;
  • 高性能加速:支持 CPU 多核、ARM NEON、CUDA GPU 加速,性能远超手写 C++ 网络;
  • PyTorch生态兼容:API 与 Python 版 PyTorch 高度一致,学习成本极低,模型可互通;
  • 工业级稳定:广泛用于自动驾驶、物联网、客户端 AI 等生产环境。

下载地址

平台版本:https://pytorch.org/get-started/locally/

Windows:选择 LibTorch (C++/Windows)

Linux x86:选择 LibTorch (C++/Linux)

ARM 平台:可直接编译或下载预编译包

注意(这里是否准确,根据运行结果,不准确了,使用到了vs2017x64了)

这里官方全程没有写其是依赖VS2019/VS2022,只说了用msvc,没有提及msvc的版本,是社区踩坑找到的,我们基于前人的总结如下:

  • 2.1+ 最新版:VS2022 MSVC v143 编译(后续看入坑三,这里会有细节需要深究了)
  • 2.0 及更早:VS2019 MSVC v142 编译(后续看入坑三,这里会有细节需要深究了)

版本选择

LibTorch1.13.1:其是最后一个VS2019编译的版本,这个有点坑,实际最后可以MSVC2016X64,所以可能是兼容的。

Qt5.12.7:Qt开始支持VS2019编译的版本是Qt5.15开始,这里5.12.7是笔者多次踩坑后最终运行成功的。

安装VS2017的选v141(v142是vs2019的编译器,v143是vs2022的编译)器)。

搭建基础环境

步骤一:下载解压

注意:这是多次踩坑,能运行的版本,其他版本读者自行决定。

步骤二:创建工程模块化

步骤三:引入libTorch库

将库复制过去:

cpp 复制代码
# 文件夹根路径
LIBTORCH_DIR_PATH = $$PWD/libtorch-win-shared-with-deps-1.13.1+cpu # 头文件 INCLUDEPATH += $$LIBTORCH_DIR_PATH/libtorch/include INCLUDEPATH += $$LIBTORCH_DIR_PATH/libtorch/include/torch/csrc/api/include # 库文件 LIBS += -L$$PWDLIBTORCH_DIR_PATH/libtorch/lib LIBS += -lXNNPACK LIBS += -lasmjit LIBS += -lc10 LIBS += -lclog LIBS += -lcpuinfo LIBS += -ldnnl LIBS += -lfbgemm LIBS += -lkineto LIBS += -llibprotobuf LIBS += -lpthreadpool LIBS += -ltorch LIBS += -ltorch_cpu 

步骤四:编译出现错误"IValue"(关键点)

添加头文件,解决冲突:

然后直接注释掉下面这3个地方即可:

几十个错误,就都没了。

编译通过:

运行则需要将dll拷贝到shadow运行目录下。

运行结果:

模块化

Demo源码

libTorchManager.pri

cpp 复制代码
INCLUDEPATH += $$PWD
DEPENDPATH += $$PWD

HEADERS += \
    $$PWD/LibTorchManager.h SOURCES += \ $$PWD/LibTorchManager.cpp # 添加libtorch库 # 文件夹根路径 LIBTORCH_DIR_PATH = $$PWD/libtorch-win-shared-with-deps-1.13.1+cpu # 头文件 INCLUDEPATH += $$LIBTORCH_DIR_PATH/libtorch/include INCLUDEPATH += $$LIBTORCH_DIR_PATH/libtorch/include/torch/csrc/api/include # 库文件 LIBS += -L$$LIBTORCH_DIR_PATH/libtorch/lib LIBS += -lasmjit LIBS += -lc10 LIBS += -lclog LIBS += -lcpuinfo LIBS += -lfbgemm LIBS += -lkineto LIBS += -llibprotobuf LIBS += -ltorch LIBS += -ltorch_cpu 

libTorchManager.h

cpp 复制代码
#ifndef LIBTORCHMANAGER_H
#define LIBTORCHMANAGER_H #undef slots #include <torch/torch.h> #define slots Q_SLOTS #include <QObject> class LibTorchManager : public QObject { Q_OBJECT public: explicit LibTorchManager(QObject *parent = 0); public: static QString getVersion(); static void testEvn(); signals: private: }; #endif // LIBTORCHMANAGER_H 

libTorchManager.cpp

cpp 复制代码
#include "LibTorchManager.h"

#include <QDebug> #include <QDateTime> //#define LOG qDebug()<<__FILE__<<__LINE__ //#define LOG qDebug()<<__FILE__<<__LINE__<<__FUNCTION__ //#define LOG qDebug()<<__FILE__<<__LINE__<<QThread()::currentThread() //#define LOG qDebug()<<__FILE__<<__LINE__<<QDateTime::currentDateTime().toString("yyyy-MM-dd") #define LOG qDebug()<<__FILE__<<__LINE__<<QDateTime::currentDateTime().toString("yyyy-MM-dd hh:mm:ss:zzz") LibTorchManager::LibTorchManager(QObject *parent) : QObject(parent) { } QString LibTorchManager::getVersion() { return QString(TORCH_VERSION); } void LibTorchManager::testEvn() { LOG; // 崩溃 // torch::Tensor tensorA = torch::tensor({1.0, 2.0, 3.0f}); torch::Tensor tensorA = torch::tensor({1, 2}); LOG; torch::Tensor tensorB = torch::tensor({2, 3}); LOG; #if 0 std::cout << __FILE__ << __LINE__; // 打印 std::cout << "\nTensro a:\n" << tensorA << std::endl; std::cout << "\nTensro b:\n" << tensorB << std::endl; LOG; // 运算 torch::Tensor tensorC = tensorA + tensorB; std::cout << "\nTensro c:\n" << tensorC << std::endl; // 检查cuda std::cout << "cuda avaliable:" << (torch::cuda::is_available() ? "YES" : "NO") << std::endl; #endif } 

工程模板v1.0.0

入坑

入坑一:报错"parameter-listxxxx"

问题

尝试1:切换版本

经过研究,网上说是2.0.0是vs2019,实际上2.0.0是vs2022了。

下降版本,最后一个vs2019版本是libtorch1.13.0。

QObject::slots() 这个成员函数,确实是 Qt 6 新增的 API,Qt5 完全没有!

尝试2:只能细看

发现是代码就没这个函数:

进一步挖掘,感觉是污染版本了,libtorch使用slots()与qt认为是自己的SLOT()宏冲突。

解决

使用下面的代码解决:

cpp 复制代码
// 固定模板,顺序绝对不能改
#undef slots // 先干掉Qt全局slots宏污染 #include <torch/torch.h> #define slots Q_SLOTS // 恢复Qt原本的slots槽宏 

入坑二:报错无法打开输入protobuf

问题

原因

正常来说LIBS += -l,就不用带库前三位是lib的了:

这里这次要带??根据提示报错,其是打不开protobuf,不是libprotobuf。

解决

cpp 复制代码
LIBS += -llibprotobuf

惯性思维有点坑。

入坑三:运行就"Process creashed"

问题

尝试1:定位具体代码

考虑是否msvc的版本于是更换1.13,2.0.0,2.11.1,未发现问题。

(后续补充:是参数1.0,2.0和3.0f的问题,导致混合了,但是工程没保存,这里以后再说了)

尝试2:从exe运行下手

思路跑exe,如果加载错误就会报错,逐一添加:

依提示添加库,一是证明了添加成功了,二是证明了跑不起与库版本无关。

至此而过,确认不是依赖库问题。

把重点放到代码调用上:

查询CPU是否支持AVX,AVX2也可能崩溃出现这个问题,如下:

不是问题。

尝试3:版本混战

Qt5.12,5.14,5.15各自遍历搭配libtorch1.13.1,2.0.0,2.11.0,发现仍然如此。

尝试4:无意发现2个参数的不报错

经过进一步论证,发现Qt5.12.x+msvc2017x64+libtorch-1.13.1可以。

同样部署到Qt5.15.2+msvc2019x64+libtorch几个版本还是不行。

解决

最终定了Qt5.12.2+msvc2017x64+libtorch1.13.1是可以的。

思考1

默认就是msvc的版本不兼容,说只支持msvc2019x64/msvc2022x64,现在1.13.1可以msvc2017x64,这里不深究了(有兴趣,读者可继续)。