使用服务器训练模型的注意事项

一、图像展示

1.1、用VS Code远程连接服务器时,当我们想用matplotlib库来进行图像展示的时候,需要设置DISPLAY变量。

复制代码
# 用终端工具(XShell)SSH远程服务器,在终端上输入下列语句
# 如果使用了anaconda的虚拟环境,那么需要先进行入虚拟环境中

echo $DISPLAY

# 输出例子如下:
localhost:10.0

# 然后到VS Code的终端里面,注意也是要在虚拟环境中,输入下列语句
export DISPLAY="localhost:10.0"

二、训练模型

2.1、用服务器训练模型时,效果比windows差很多,甚至无法收敛

原因:服务器一般是Linux系统,那么在训练过程中,读取数据集的时候就需要注意:Linux读取文件是乱序的,所以需要加上"sorted"函数,先排序,再遍历数据集。

2.2、模型训练日志保存路径

需要用os库中的一个函数来定义编译器工作路径,设置好了后就可以之间使用"./"来保存文件和读取数据了

复制代码
import os

os.chdir('/home/....../Projects')

2.3、指定GPU训练模型

服务器一般有多卡,那么如果想要指定GPU来训练我们的模型,我们需要设置一个变量,后续的程序中直接使用.cuda()就可以了。

复制代码
import os

os.environ['CUDA_VISIBLE_DEVICES'] = 'gpu_id_0, gpu_id_1'

三、Tensorboard使用

3.1、用服务器训练模型时,tensorboard无法启动

原因:第一次使用一般都是可以打开的,但一旦在vs code里面关闭它时,其实是没有完全关闭的,所以需要在终端中输入以下指令:

复制代码
kill -9 $(ps -ef|grep tensorboard|grep -v grep|awk '{print $2}')

3.2、用服务器训练模型时,tensorboard一直展示上一个项目的训练日志

原因:Tensorboard一直展示前一个项目的数据-CSDN博客

相关推荐
七夜zippoe6 小时前
CANN Runtime任务描述序列化与持久化源码深度解码
大数据·运维·服务器·cann
盟接之桥6 小时前
盟接之桥说制造:引流品 × 利润品,全球电商平台高效产品组合策略(供讨论)
大数据·linux·服务器·网络·人工智能·制造
Fcy6487 小时前
Linux下 进程(一)(冯诺依曼体系、操作系统、进程基本概念与基本操作)
linux·运维·服务器·进程
袁袁袁袁满7 小时前
Linux怎么查看最新下载的文件
linux·运维·服务器
代码游侠7 小时前
学习笔记——设备树基础
linux·运维·开发语言·单片机·算法
主机哥哥8 小时前
阿里云OpenClaw部署全攻略,五种方案助你快速部署!
服务器·阿里云·负载均衡
Harvey9038 小时前
通过 Helm 部署 Nginx 应用的完整标准化步骤
linux·运维·nginx·k8s
珠海西格电力科技9 小时前
微电网能量平衡理论的实现条件在不同场景下有哪些差异?
运维·服务器·网络·人工智能·云计算·智慧城市
释怀不想释怀9 小时前
Linux环境变量
linux·运维·服务器
zzzsde9 小时前
【Linux】进程(4):进程优先级&&调度队列
linux·运维·服务器