服务器量化训练操作说明

电气_空空2023-12-23 21:58

Freespace服务器预训练主要步骤：

首先登录堡垒机，命令如下：

ssh xxx@relay.baidu-int.com （xxx为个人邮箱前缀）

密码为个人邮箱密码

登录工作机，命令如下：

ssh l3@yq01-gpu-255-122-22-00.epc.baidu.com

密码为：l3

在工作机上找到freespace网络的训练源码及脚本(该版本为验证成功版本)，原始路径为/home/l3/chenghongkuan/freespace/perception-tnt8.2，在根目录下新建一个自己的目录，并将原始路径下的内容拷贝到个人目录下。
集群环境配置
1. slurm客户端工具拷贝：工作机slurm客户端工具已安装，可以直接将该部分内容copy到自己的目录下：
2. Token申请：在自己的客户端目录下，执行以下命令完成个人token的申请，会收到邮件，注意查收：
3. Token配置：执行以下命令完成个人token的配置，其中ak以及sk可以在申请时收到的邮件中查到，配置成功会收到邮件，

训练任务提交：该部分暂时先按最简单的方式来操作，操作如下
1. 在自己的训练路径下，找到submit.sh，修改submit.sh中的HGclient的地址，改为自己目录：

1. 在自己的训练路径下，找到train.sh，可以将job_name改为自己定义的名字；
2. 在自己的训练路径下，找到freespace.yaml，检查DATASET:TRAINING:DATA_MODULE是否为apps.freespace.src.data.sfs_v3.SFSDataset，检查MODEL:BACKBONE:CONV_BODY是否为SfsVps；
3. 在自己的训练路径下，找到train.sh，并执行sh train.sh，将训练任务提交到远程集群进行训练，如果训练任务提交成功则会有如下打印信息：

阡陌控制台也会查到当前提的任务，界面如下：

训练模型获取：在阡陌服务器页面中"我的作业"中找到本次训练的任务，然后点击"查看overview"

，进入Log Agent界面，点击"output"，选中模型，点击"download"进行模型下载，

上一篇：服务器数据恢复-误操作导致xfs分区数据丢失的数据恢复案例

下一篇：服务器经常死机怎么办？如何处理

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 0300 Debian字符界面如何支持中文 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 102026 年 AI 大模型 & AI 编程工具实战全总结