超算/曙光DCU集群 昆山站 htc /public 目录全解

/public 目录全解(集群全节点NFS共享公共目录,login节点+所有DCU计算节点全部通用,HTC/SLURM任务都能直接调用这里资源)

/public = 集群公用仓库:公用软件包、编译环境、脚本、运维工具、项目公共源码、调度模板,HTC跨节点首选公共依赖路径

一、计算化学/分子模拟(超算主力软件,HTC批量任务常用)

名称 说明
GROMACS.setting Gromacs分子动力学环境配置脚本,HTC跑gromacs作业source这个文件加载环境
LAMMPS.setting LAMMPS分子模拟环境脚本
CASTEP-19.11 CASTEP第一性原理计算软件包
VASP_interface.var VASP接口环境变量配置
alphafold 公共版AlphaFold蛋白预测环境、权重库,全集群共用
atmos / atmos_test 大气/气象数值模式软件与测试目录
QFLUX_EASTWAVE 油气地震、波浪模拟公共程序(对应你之前OceanWave3D、GeoEast业务)

二、software / soft_pkgs / packages:集群公共软件仓库

  • software:已解压装好的公用编译软件、DCU环境、MPI、编译器、各类依赖(HTC作业最常用,统一在这里加载环境)
  • soft_pkgs:各类源码/安装包压缩包
  • packages:rpm、源码包归档

三、SLURM/HTC调度相关(批量提交作业核心)

名称 作用
job_BASE.slurm SLURM任务提交模板脚本,提交任务直接复制改参数即可
slurm2.2test、slurm_share、slurm_upgrade_mysql_backup Slurm调度集群安装包、配置、升级备份;你的HTC高通量任务底层调度配套文件
nodelist 集群所有计算节点清单,批量脚本遍历节点用

四、SothisAI / sothis系列:超算自研AI平台(国产DCU适配)

sothis_harbor、SothisAI、sothisai_instal、sourcecode

中科曙光自研AI框架、镜像仓库、安装脚本、源码,DCU大模型训练公共环境。

五、运维监控、Prometheus监控组件(集群运维采集指标)

复制代码
mysqld_exporter、redis_exporter、influxdb_exporter

数据库/中间件监控采集程序,运维监控集群负载、调度状态

  • acx-collector-app-xxx.jar:Java开发的集群指标采集服务
  • gridview-install、gridview_share:曙光GridView超算集群管理平台安装包与共享配置(集群资源监控页面程序)
  • MPT_Monitor_system.0.dbg:集群监控程序崩溃日志

六、Hadoop、大数据相关

hadoop:分布式大数据环境,部分高通量HTC大数据计算共用。

七、备份目录(历史数据备份,不运行任务)

复制代码
gv_bak、backup、backup20240131、backup_xglg_20251028、sql_bakup_y、vnc_bak_20240416、ldap_backup

数据库、配置、系统定时备份包,存放历史归档,不要在里面跑HTC任务

八、源码&项目开发目录

sourcecode、models、training

  • sourcecode:各类仿真、AI项目公共源码
  • models:公共预训练模型权重(全集群共享,AI任务不用每个用户重复下载)
  • training:公共AI训练数据集目录

九、用户自建项目目录(课题组公用文件)

albert、jly、mhf、hjl、caix、ty、zong、wuzz、nihao

用户名缩写文件夹,各个课题组放在/public的公共工程、脚本(全节点共享,同组人HTC任务通用)

share、share_of_wu:用户小组共享目录

十、杂项工具、测试、临时

复制代码
test、test_slurm_update_0702、tmp_1、template、New Folder
  • template:HTC/SLURM脚本模板存放处
  • test:各类软件临时测试目录

十一、其他运维工具

  • arthas.tar.gz:Java进程故障排查工具
  • telnet-xxx.rpm:远程调试工具安装包
  • netcdf:气象/海洋数据格式依赖库(GeoEast、波浪模拟必备)

十二 多个用户共享文件

/public/home

HTC使用实操总结

  1. 加载软件环境 :作业脚本开头 source /public/GROMACS.setting / 从/public/software加载DCU环境
  2. 公用模型/数据集 :直接读 /public/alphafold、/public/models、/public/training
  3. 提交脚本模板 :复制job_BASE.slurm改写成自己的HTC任务脚本
  4. ❌ 禁止在backup/xxx_bak备份目录读写作业临时文件

需要我给你一个标准HTC脚本示例吗?

相关推荐
IT_陈寒7 小时前
Python搞不定字符串编码?这破玩意坑我两小时!
前端·人工智能·后端
大模型真好玩9 小时前
什么是Loop Engineering?最通俗易懂的Loop Engineering核心概念
人工智能·agent·deepseek
叁两9 小时前
前端转型AI Agent该如何学习?(前置篇)
前端·人工智能·node.js
顾林海9 小时前
Agent入门阶段-编程基础-Python:流程控制
python·agent·ai编程
LaiYoung_9 小时前
🎁 送你一套超好用超实用的 FE AI-Coding Skills
前端·人工智能·开源
ZzT12 小时前
怎么做才不会被 AI 替代?
人工智能·程序员
道友可好12 小时前
从今天开始:你的第一个 Harness Engineering 实践
前端·人工智能·后端
呱呱复呱呱12 小时前
Django CBV 源码解读:一个请求是怎么找到你的 get() 方法的
python·django
小姜前线技术13 小时前
AI回答代码块高亮加一键复制
人工智能
洛阳泰山13 小时前
从 0 到 1.6K Star:一个 Java 开源项目的增长复盘
人工智能·后端·开源