LALIC 按照官方环境installation步骤会报错,以下是建议的修正的安装流程
powershell
conda create -n LALIC_env python=3.10
conda activate LALIC_env
pip install compressai==1.2.6
pip install ninja
pip install torchvision==0.19.0
pip install torch==2.4.0
pip install tensorboard
因为这个代码涉及到GPU与CUDA架构的问题,官方模型是在 single NVIDIA GeForce RTX 4090 GPU上训练出来的,我目前只在2080Ti上能够成功运行在A100上按照如下步骤解决完报错后重建图像是错误的,在A40或者H800上甚至没法跑,报错
powershell
subprocess.CalledProcessError: Command '['ninja', '-v']' returned non-zero e
以下内容可以忽略
如果想试着在服务器 Slurm A100 环境下运行项目,顺利安装完如上环境后,LALIC 项目运行时有如下报错,如果同样遇到可以参考,但是不太建议,因为还是运行不了。
报错 1
报错内容:
powershell
OSError: CUDA_HOME environment variable is not set. Please set it to your CUDA install root.
解决方案:
powershell
conda install -c nvidia cuda-toolkit=12.4
报错 2
报错内容:
powershell
ValueError: Unknown CUDA arch (10.0) or GPU not supported E0216 19:27:58.677000 139882420627264
解决方案:
(1)首先命令行运行 python,输入如下命令:
python
import torch
print(torch.cuda.get_arch_list())
返回值如下:
powershell
['sm_50', 'sm_60', 'sm_70', 'sm_75', 'sm_80', 'sm_86', 'sm_90']
,说明没有什么问题。
(2)只需在 sjob_LALIC.sh (也就是你的 Slurm 批处理命令文件中)中加入如下命令:
powershell
export TORCH_CUDA_ARCH_LIST=""