为了训练模型,买了个5080,U9的机器。
本来是想安装22.04的,但是22.04的内核版本太低了,不支持我的无线网卡。查了下安装高版本的内核,但是太麻烦,也没找到合适的下载连接。查询的时候,有个帖子说直接用24.04的,可以直接解决这个问题,就转而安装24.04的。
具体的安装过程简单说一下,就是下载一个rufus软件,准备一个8G以上的U盘,下载24.04的镜像iso文件,就可以把U盘制作成启动盘。具体过程网上都有。
我在安装的过程中,出现了安装错误。查看log,好像是在运行某些命令时发生了错误。我后来解决的时候进行了两个改动,不清楚是哪个起到了作用,你们可以都试试。
一个是升级软件包。sudo apt update && sudo apt upgrade,好像是这个命令行。虽然系统安装错误,但是还是可以进行界面操作的,而且还能连上网络,所以直接在terminal里运行命令行就可以了。
第二个就是分区的问题,有的博客说要额外分/var和/usr,但是有的说可能会造成冲突。后来我按照https://blog.csdn.net/weixin_44065714/article/details/88094731这个划分,没问题了。如果你不划分,直接用默认的也可以。
系统安装好之后,就是解决输入汉语的问题了。我一开始直接在系统上加入汉语,但是行不通,打不出来汉语。后来就安装搜狗。按照上述链接进行安装搜狗输入之后,进行中文输入时,搜狗图标和输入界面一直在闪烁,无法输入。后来按照这个链接,https://zhuanlan.zhihu.com/p/1924444784191313056,强制使用 Xorg,得到了解决,记得最后一定要重启。也可以按照这个连接的操作来安装搜狗。
更换源
https://blog.csdn.net/qq_37344125/article/details/138841559
接着是显卡驱动的问题,我一开始用sudo ubuntu-drivers autoinstall自动安装推荐的最新版本,580,但是这个会自动升级我的系统内核,导致又不能识别网卡。后来上网查到,用570-open不会有这个问题,于是试了一下,成功了。不过安装570的之前,我锁定了当前的内核,并防止更新,不知道是不是这个原因使得内核没有改变。
https://blog.csdn.net/qq_39698985/article/details/146035919。锁定内核可参考这篇文章,不过现在要money了。
然后开始安装CUDA。我先说结果,一定要安装CUDA12.8。cudnn我用的是9.4.0。pytorch是2.7。主要的原因是要编译MMCV。一般情况下,RTX5080要求pytorch大于2.2。而MMCV要求小于2.2。所以一般的方法都不行。具体试了多少,也记不清了。我就把我成功的方法列出来。首先MMCV的版本选2.1.0。因为有好几篇博客都说,50系列的显卡,想编译MMCV,只能选2.1.0。也许其他的也行吧,但是我成功之后没有试其他版本的。首先将MMCVclone到本地,然后根据https://mmcv.readthedocs.io/zh-cn/v1.4.7/get_started/build.html中,既编译 CPU 算子又编译 CUDA 算子的方法进行编译。
MMCV_WITH_OPS,
MAX_JOBS
TORCH_CUDA_ARCH_LIST这三个变量,如果事先设置没有用,就在
python setup.py build_ext的命令前面,对这些变量进行设置,然后一起运行。
我记得编译的时候,好像有个错误,具体是什么忘了,你观察编译过程,在前面应该有个错误。好像是个范围错误,或者是版本错误,会具体到一个文件。然后这个文件里有一个是关于这个变量的范围定义,把你的加进去就行了。
MMdet我安装的2.28.2版本,不要源码编译,说缺少torch。我直接用的mim install。你可以试试其他版本。
mmrotate我安装的是1.0.0rc1版本。好像只能用mim install安装,不然会提示缺少/.mim/model-index的错误。