超算/曙光DCU集群根目录文件夹逐项释义(HTC调度集群环境、国产DCU算力节点)
目录是**服务器/超算根目录/**下挂载目录+系统原生目录混合,分为4大类:Linux系统标准目录、超算业务工程目录、NAS/存储挂载盘、用户&作业临时目录
一、Linux系统原生标准目录(系统自带)
| 目录 | 用途说明 |
|---|---|
bin |
系统基础二进制命令(ls、cp等) |
boot |
系统内核、启动引导文件 |
dev |
硬件设备:磁盘、DCU显卡、网卡设备文件 |
etc |
系统配置、环境变量、集群HTC调度配置、挂载配置 |
home |
普通用户家目录,集群所有用户默认工作根目录 |
lib / lib64 |
32/64位系统依赖库、DCU runtime底层库 |
lost+found |
磁盘异常断电丢失文件回收站(ext文件系统自带) |
mnt |
临时手动挂载目录 |
opt |
第三方大型预装软件:编译环境、MPI、DCU驱动、商业仿真软件 |
proc |
系统内核虚拟文件:DCU硬件信息、进程、算力负载、perf性能参数 |
root |
root管理员家目录 |
run |
运行时临时文件、集群调度socket文件 |
sbin |
管理员系统命令 |
sys |
硬件总线、DCU设备、内核参数 |
tmp |
全机临时缓存目录,HTC作业临时落地文件,自动定期清理 |
usr |
系统软件、编译器、Python、开发库 |
var |
日志、系统缓存、集群调度日志、任务运行日志 |
零散系统文件
34947.perf:perf性能采样日志 ,34947为进程PID,DCU/CPU算力性能监控文件。
aa:管理员自定义临时文件夹。
二、超算自研/业务项目目录(OceanWave3D、gromacs、alphafold等计算业务)
1. 分子模拟&AI生物计算
alphafold:AlphaFold蛋白结构预测全套部署目录(DCU适配版)gromacs-DCU:GROMACS分子动力学仿真(DCU国产加速编译版)正式生产环境gromacs_test:GROMACS测试编译目录,调试新版本、参数测试
2. 海洋油气/地质数值模拟(GeoEast、OceanWave3D、cliparastor 物探行业软件)
GeoEastDATA:中石油GeoEast地震处理软件数据盘(勘探地震数据存储)OceanWave3D:三维海洋波浪/海洋动力数值模拟程序源码+可执行程序libOceanWave3DBuild.a:OceanWave3D静态编译库文件cliparastor:集群并行分布式存储(物探海量地震文件专用并行存储)cfit:地质拟合、地震反演配套程序目录
3. 医疗计算
medical:医疗影像/生物医药仿真项目目录
三、Business业务盘(项目业务数据分区,超算项目专属存储)
Business:项目总业务盘(普通机械盘/大容量存储)Business02:第二块业务数据分区Business_ssd:高速SSD业务盘,IO密集型计算临时读写盘
四、ksnfsxx:集群NFS分布式共享存储(HTC多节点共用NAS)
ksnfs01、ksnfs02、ksnfs07、ksnfs08:NFS共享存储挂载点
HTC集群多计算节点共用远程存储,所有节点读写同一份数据,作业跨节点调度依赖此盘存原始数据、结果文件。
五、ssd系列:高速SSD本地盘(DCU节点本地高速固态盘,算力加速盘)
超算节点本地NVMe/SSD,本地高速缓存,避免NFS网络IO瓶颈,DCU大算力作业优先落地SSD
ssd:通用高速SSD根目录ssd_nj_wty:南京项目wty专用SSD盘ssd_wangj:用户wangj专属高速SSDssd_wty_dcu:wty项目DCU加速本地SSD
六、wty/wutanyuan相关(项目负责人/课题组目录)
wutanyuan:用户/课题组wutanyuan根目录wty_dcu:wty课题组DCU专项计算目录( gromacs、波浪模拟等)
七、work系列:HTC作业工作目录(超算调度核心)
HTC=HTCondor/曙光HTC批量调度系统,集群批量提交任务的工作区
work:主作业目录,HTC调度默认工作路径work1:备用作业目录,分流任务、隔离大作业
八、sf/sfos/sq/srv/public 集群调度&服务目录
sf / sfos:曙光集群SFOOS集群管理系统目录(超算管理平台)sq:队列调度脚本、作业队列配置(HTC任务队列)srv:集群后台服务、NFS服务、调度服务程序public:全集群公用软件、公共脚本、通用环境配置
九、config、system_reboot
config:全集群统一配置文件(环境脚本、DCU环境变量、HTC提交脚本模板)system_reboot:节点重启脚本、系统运维脚本
补充:HTC在本集群含义
HTC(High Throughput Computing)高通量计算,靠HTCondor/曙光自研调度,批量跑大量小任务/串行任务,所有work、ssd、ksnfs目录都是为HTC批量作业做存储分层:
- 原始数据:ksnfs共享NFS
- 高速计算中间文件:本地ssd
- 作业运行目录:work
- 最终结果落地:Business业务盘
需要我按提交HTC任务选目录建议精简一版(哪些目录放输入、哪些放中间、哪些不能写临时)吗?