服务器量化训练操作说明

Freespace服务器预训练主要步骤:

  1. 首先登录堡垒机,命令如下:

ssh xxx@relay.baidu-int.com (xxx为个人邮箱前缀)

密码为个人邮箱密码

  1. 登录工作机,命令如下:

ssh l3@yq01-gpu-255-122-22-00.epc.baidu.com

密码为:l3

  1. 在工作机上找到freespace网络的训练源码及脚本(该版本为验证成功版本),原始路径为/home/l3/chenghongkuan/freespace/perception-tnt8.2, 在根目录下新建一个自己的目录,并将原始路径下的内容拷贝到个人目录下。
  2. 集群环境配置
    1. slurm客户端工具拷贝:工作机slurm客户端工具已安装,可以直接将该部分内容copy到自己的目录下:
    2. Token申请:在自己的客户端目录下,执行以下命令完成个人token的申请,会收到邮件,注意查收:
    3. Token配置:执行以下命令完成个人token的配置,其中ak以及sk可以在申请时收到的邮件中查到,配置成功会收到邮件,
  1. 训练任务提交:该部分暂时先按最简单的方式来操作,操作如下
    1. 在自己的训练路径下,找到submit.sh, 修改submit.sh中的HGclient的地址,改为自己目录:
    1. 在自己的训练路径下,找到train.sh,可以将job_name改为自己定义的名字;
    2. 在自己的训练路径下,找到freespace.yaml,检查DATASET:TRAINING:DATA_MODULE是否为apps.freespace.src.data.sfs_v3.SFSDataset,检查MODEL:BACKBONE:CONV_BODY是否为SfsVps;
    3. 在自己的训练路径下,找到train.sh,并执行sh train.sh,将训练任务提交到远程集群进行训练,如果训练任务提交成功则会有如下打印信息:

阡陌控制台也会查到当前提的任务,界面如下:

  1. 训练模型获取:在阡陌服务器页面中"我的作业"中找到本次训练的任务,然后点击"查看overview"

,进入Log Agent界面,点击"output",选中模型,点击"download"进行模型下载,

相关推荐
piaoxue82024 分钟前
MFA MACOS 安装流程
linux·运维·服务器
柱子子子子1 小时前
Ubuntu24.04 不能使用todesk 解决办法
运维·服务器
深圳佛手1 小时前
AI 编程工具Claude Code 介绍
人工智能·python·机器学习·langchain
天若有情6732 小时前
新闻通稿 | 软件产业迈入“智能重构”新纪元:自主进化、人机共生与责任挑战并存
服务器·前端·后端·重构·开发·资讯·新闻
BJ_Bonree2 小时前
圆桌论坛精华实录 | AI是重构运维逻辑的颠覆性革命?博睿数据与行业大咖亲授“AI+可观测性”的破局之道
运维·人工智能·重构
冬夜戏雪2 小时前
【尚庭公寓152-157】[第6天]【配置阿里云号码认证服务】
运维·服务器
恋上钢琴的虫2 小时前
openEuler上安装高版本的docker
运维·docker·容器
森语林溪3 小时前
大数据环境搭建从零开始(十四)CentOS 7 系统更新源更换详解:阿里云镜像源配置完整指南
大数据·linux·运维·阿里云·centos
koo3643 小时前
李宏毅机器学习笔记43
人工智能·笔记·机器学习
Fanmeang3 小时前
华为交换机VLAN技术详解:从基础到高级应用
运维·网络·华为·vlan·交换机·mux vlan