使用服务器训练模型的注意事项

一、图像展示

1.1、用VS Code远程连接服务器时,当我们想用matplotlib库来进行图像展示的时候,需要设置DISPLAY变量。

复制代码
# 用终端工具(XShell)SSH远程服务器,在终端上输入下列语句
# 如果使用了anaconda的虚拟环境,那么需要先进行入虚拟环境中

echo $DISPLAY

# 输出例子如下:
localhost:10.0

# 然后到VS Code的终端里面,注意也是要在虚拟环境中,输入下列语句
export DISPLAY="localhost:10.0"

二、训练模型

2.1、用服务器训练模型时,效果比windows差很多,甚至无法收敛

原因:服务器一般是Linux系统,那么在训练过程中,读取数据集的时候就需要注意:Linux读取文件是乱序的,所以需要加上"sorted"函数,先排序,再遍历数据集。

2.2、模型训练日志保存路径

需要用os库中的一个函数来定义编译器工作路径,设置好了后就可以之间使用"./"来保存文件和读取数据了

复制代码
import os

os.chdir('/home/....../Projects')

2.3、指定GPU训练模型

服务器一般有多卡,那么如果想要指定GPU来训练我们的模型,我们需要设置一个变量,后续的程序中直接使用.cuda()就可以了。

复制代码
import os

os.environ['CUDA_VISIBLE_DEVICES'] = 'gpu_id_0, gpu_id_1'

三、Tensorboard使用

3.1、用服务器训练模型时,tensorboard无法启动

原因:第一次使用一般都是可以打开的,但一旦在vs code里面关闭它时,其实是没有完全关闭的,所以需要在终端中输入以下指令:

复制代码
kill -9 $(ps -ef|grep tensorboard|grep -v grep|awk '{print $2}')

3.2、用服务器训练模型时,tensorboard一直展示上一个项目的训练日志

原因:Tensorboard一直展示前一个项目的数据-CSDN博客

相关推荐
道路与代码之旅17 小时前
Delphi - IndyHttpServer接收上传文件
运维·服务器
烦躁的大鼻嘎17 小时前
【Linux】深入Linux多线程架构与高性能编程
linux·运维·服务器·开发语言·c++·ubuntu
羚羊角uou18 小时前
【Linux】system V共享内存
linux·运维·服务器
林克爱塞尔达18 小时前
Linux入门(二)
linux·运维·chrome
破烂儿18 小时前
Ubuntu Server 安装图形界面和通过Window远程桌面连接服务器(Xrdp)
linux·服务器·ubuntu
Hello.Reader18 小时前
Kafka 运维实战基本操作含命令与最佳实践
运维·kafka·linq
存储服务专家StorageExpert18 小时前
手搓一个 DELL EMC Unity存储系统健康检查清单
linux·运维·服务器·存储维护·emc存储
小虾米vivian19 小时前
达梦:将sql通过shell脚本的方式放在后台执行
服务器·数据库·sql
SonOfWind031119 小时前
CentOS搭建本地源
linux·运维·centos
IT成长日记19 小时前
【Nginx开荒攻略】Nginx主配置文件结构与核心模块详解:从0到1掌握nginx.conf:
linux·运维·nginx·配置文件