超算/曙光DCU集群 昆山站 根目录文件夹逐项释义(HTC调度集群环境、国产DCU算力节点)

超算/曙光DCU集群根目录文件夹逐项释义(HTC调度集群环境、国产DCU算力节点)

目录是**服务器/超算根目录/**下挂载目录+系统原生目录混合,分为4大类:Linux系统标准目录、超算业务工程目录、NAS/存储挂载盘、用户&作业临时目录

一、Linux系统原生标准目录(系统自带)

目录 用途说明
bin 系统基础二进制命令(ls、cp等)
boot 系统内核、启动引导文件
dev 硬件设备:磁盘、DCU显卡、网卡设备文件
etc 系统配置、环境变量、集群HTC调度配置、挂载配置
home 普通用户家目录,集群所有用户默认工作根目录
lib / lib64 32/64位系统依赖库、DCU runtime底层库
lost+found 磁盘异常断电丢失文件回收站(ext文件系统自带)
mnt 临时手动挂载目录
opt 第三方大型预装软件:编译环境、MPI、DCU驱动、商业仿真软件
proc 系统内核虚拟文件:DCU硬件信息、进程、算力负载、perf性能参数
root root管理员家目录
run 运行时临时文件、集群调度socket文件
sbin 管理员系统命令
sys 硬件总线、DCU设备、内核参数
tmp 全机临时缓存目录,HTC作业临时落地文件,自动定期清理
usr 系统软件、编译器、Python、开发库
var 日志、系统缓存、集群调度日志、任务运行日志

零散系统文件

34947.perfperf性能采样日志 ,34947为进程PID,DCU/CPU算力性能监控文件。

aa:管理员自定义临时文件夹。

二、超算自研/业务项目目录(OceanWave3D、gromacs、alphafold等计算业务)

1. 分子模拟&AI生物计算

  • alphafold:AlphaFold蛋白结构预测全套部署目录(DCU适配版)
  • gromacs-DCUGROMACS分子动力学仿真(DCU国产加速编译版)正式生产环境
  • gromacs_test:GROMACS测试编译目录,调试新版本、参数测试

2. 海洋油气/地质数值模拟(GeoEast、OceanWave3D、cliparastor 物探行业软件)

  • GeoEastDATA:中石油GeoEast地震处理软件数据盘(勘探地震数据存储)
  • OceanWave3D:三维海洋波浪/海洋动力数值模拟程序源码+可执行程序
  • libOceanWave3DBuild.a:OceanWave3D静态编译库文件
  • cliparastor:集群并行分布式存储(物探海量地震文件专用并行存储)
  • cfit:地质拟合、地震反演配套程序目录

3. 医疗计算

medical:医疗影像/生物医药仿真项目目录

三、Business业务盘(项目业务数据分区,超算项目专属存储)

  • Business:项目总业务盘(普通机械盘/大容量存储)
  • Business02:第二块业务数据分区
  • Business_ssd高速SSD业务盘,IO密集型计算临时读写盘

四、ksnfsxx:集群NFS分布式共享存储(HTC多节点共用NAS)

ksnfs01、ksnfs02、ksnfs07、ksnfs08NFS共享存储挂载点

HTC集群多计算节点共用远程存储,所有节点读写同一份数据,作业跨节点调度依赖此盘存原始数据、结果文件。

五、ssd系列:高速SSD本地盘(DCU节点本地高速固态盘,算力加速盘)

超算节点本地NVMe/SSD,本地高速缓存,避免NFS网络IO瓶颈,DCU大算力作业优先落地SSD

  • ssd:通用高速SSD根目录
  • ssd_nj_wty:南京项目wty专用SSD盘
  • ssd_wangj:用户wangj专属高速SSD
  • ssd_wty_dcu:wty项目DCU加速本地SSD

六、wty/wutanyuan相关(项目负责人/课题组目录)

  • wutanyuan:用户/课题组wutanyuan根目录
  • wty_dcu:wty课题组DCU专项计算目录( gromacs、波浪模拟等)

七、work系列:HTC作业工作目录(超算调度核心)

HTC=HTCondor/曙光HTC批量调度系统,集群批量提交任务的工作区

  • work:主作业目录,HTC调度默认工作路径
  • work1:备用作业目录,分流任务、隔离大作业

八、sf/sfos/sq/srv/public 集群调度&服务目录

  • sf / sfos:曙光集群SFOOS集群管理系统目录(超算管理平台)
  • sq:队列调度脚本、作业队列配置(HTC任务队列)
  • srv:集群后台服务、NFS服务、调度服务程序
  • public:全集群公用软件、公共脚本、通用环境配置

九、config、system_reboot

  • config:全集群统一配置文件(环境脚本、DCU环境变量、HTC提交脚本模板)
  • system_reboot:节点重启脚本、系统运维脚本

补充:HTC在本集群含义

HTC(High Throughput Computing)高通量计算,靠HTCondor/曙光自研调度,批量跑大量小任务/串行任务,所有work、ssd、ksnfs目录都是为HTC批量作业做存储分层:

  1. 原始数据:ksnfs共享NFS
  2. 高速计算中间文件:本地ssd
  3. 作业运行目录:work
  4. 最终结果落地:Business业务盘

需要我按提交HTC任务选目录建议精简一版(哪些目录放输入、哪些放中间、哪些不能写临时)吗?

相关推荐
格桑阿sir1 小时前
15-大模型智能体开发工程师:深度学习MCP协议(Model Context Protocol)
人工智能·ai·大模型·agent·sse·mcp·streamable http
程序员佳佳1 小时前
深度解析:向量引擎如何影响AI内容收录?附3个月实测数据
人工智能·gpt·自动化·ai写作·codex
feng14561 小时前
OpenSREClaw - AI 本体论思维
运维·人工智能
zhangxingchao1 小时前
AI应用开发八:RAG相关技术总结
前端·人工智能·后端
码农小旋风1 小时前
国内使用 Claude 的 5 种路径:网页、订阅、API 和企业方案怎么选
人工智能·chatgpt
清水寺小和尚1 小时前
MCP 协议拆解:从 JSON-RPC 信封到 Agent 全链路
人工智能
机器之心2 小时前
当Token飙到天文数字,高通用「计算连续体」重搭智能体新基建
人工智能·openai
weixin_468466852 小时前
液态神经网络新手入门与实战指南
人工智能·深度学习·神经网络·ai·机器视觉·液态神经网络
机器之心2 小时前
一夜之间,ChatGPT与Codex合并了
人工智能·openai