使用服务器训练模型的注意事项

一、图像展示

1.1、用VS Code远程连接服务器时,当我们想用matplotlib库来进行图像展示的时候,需要设置DISPLAY变量。

复制代码
# 用终端工具(XShell)SSH远程服务器,在终端上输入下列语句
# 如果使用了anaconda的虚拟环境,那么需要先进行入虚拟环境中

echo $DISPLAY

# 输出例子如下:
localhost:10.0

# 然后到VS Code的终端里面,注意也是要在虚拟环境中,输入下列语句
export DISPLAY="localhost:10.0"

二、训练模型

2.1、用服务器训练模型时,效果比windows差很多,甚至无法收敛

原因:服务器一般是Linux系统,那么在训练过程中,读取数据集的时候就需要注意:Linux读取文件是乱序的,所以需要加上"sorted"函数,先排序,再遍历数据集。

2.2、模型训练日志保存路径

需要用os库中的一个函数来定义编译器工作路径,设置好了后就可以之间使用"./"来保存文件和读取数据了

复制代码
import os

os.chdir('/home/....../Projects')

2.3、指定GPU训练模型

服务器一般有多卡,那么如果想要指定GPU来训练我们的模型,我们需要设置一个变量,后续的程序中直接使用.cuda()就可以了。

复制代码
import os

os.environ['CUDA_VISIBLE_DEVICES'] = 'gpu_id_0, gpu_id_1'

三、Tensorboard使用

3.1、用服务器训练模型时,tensorboard无法启动

原因:第一次使用一般都是可以打开的,但一旦在vs code里面关闭它时,其实是没有完全关闭的,所以需要在终端中输入以下指令:

复制代码
kill -9 $(ps -ef|grep tensorboard|grep -v grep|awk '{print $2}')

3.2、用服务器训练模型时,tensorboard一直展示上一个项目的训练日志

原因:Tensorboard一直展示前一个项目的数据-CSDN博客

相关推荐
张火火isgudi2 小时前
fedora43 安装 nvidia 驱动以及开启视频编解码硬件加速
linux·运维·视频编解码·nvidia
赋创小助手2 小时前
融合与跃迁:NVIDIA、Groq 与下一代 AI 推理架构的博弈与机遇
服务器·人工智能·深度学习·神经网络·语言模型·自然语言处理·架构
电商API&Tina3 小时前
跨境电商 API 对接指南:亚马逊 + 速卖通接口调用全流程
大数据·服务器·数据库·python·算法·json·图搜索算法
IT19953 小时前
Qt笔记-使用SSH2进行远程连接linux服务器并上传文件
linux·服务器·笔记
北京盟通科技官方账号3 小时前
工业通讯底层对齐:EtherNet/IP Class 1 连接中的 32-bit Header 与内存映射逻辑
服务器·网络·网络协议·自动化·制造
叽里咕噜怪4 小时前
docker-compose 编排ruoy实践
运维·docker·容器
lengjingzju4 小时前
一网打尽Linux IPC(三):System V IPC
linux·服务器·c语言
SoveTingღ6 小时前
【问题解析】我的客户端与服务器交互无响应了?
服务器·c++·qt·tcp
iconball6 小时前
个人用云计算学习笔记 --37 Zabbix
运维·笔记·学习·云计算·zabbix
zhougl9966 小时前
Vuex 模块命名冲突:问题解析与完整解决方案
linux·服务器·apache