超算/曙光DCU集群 昆山站 htc /public 目录全解

/public 目录全解(集群全节点NFS共享公共目录,login节点+所有DCU计算节点全部通用,HTC/SLURM任务都能直接调用这里资源)

/public = 集群公用仓库:公用软件包、编译环境、脚本、运维工具、项目公共源码、调度模板,HTC跨节点首选公共依赖路径

一、计算化学/分子模拟(超算主力软件,HTC批量任务常用)

名称 说明
GROMACS.setting Gromacs分子动力学环境配置脚本,HTC跑gromacs作业source这个文件加载环境
LAMMPS.setting LAMMPS分子模拟环境脚本
CASTEP-19.11 CASTEP第一性原理计算软件包
VASP_interface.var VASP接口环境变量配置
alphafold 公共版AlphaFold蛋白预测环境、权重库,全集群共用
atmos / atmos_test 大气/气象数值模式软件与测试目录
QFLUX_EASTWAVE 油气地震、波浪模拟公共程序(对应你之前OceanWave3D、GeoEast业务)

二、software / soft_pkgs / packages:集群公共软件仓库

  • software:已解压装好的公用编译软件、DCU环境、MPI、编译器、各类依赖(HTC作业最常用,统一在这里加载环境)
  • soft_pkgs:各类源码/安装包压缩包
  • packages:rpm、源码包归档

三、SLURM/HTC调度相关(批量提交作业核心)

名称 作用
job_BASE.slurm SLURM任务提交模板脚本,提交任务直接复制改参数即可
slurm2.2test、slurm_share、slurm_upgrade_mysql_backup Slurm调度集群安装包、配置、升级备份;你的HTC高通量任务底层调度配套文件
nodelist 集群所有计算节点清单,批量脚本遍历节点用

四、SothisAI / sothis系列:超算自研AI平台(国产DCU适配)

sothis_harbor、SothisAI、sothisai_instal、sourcecode

中科曙光自研AI框架、镜像仓库、安装脚本、源码,DCU大模型训练公共环境。

五、运维监控、Prometheus监控组件(集群运维采集指标)

复制代码
mysqld_exporter、redis_exporter、influxdb_exporter

数据库/中间件监控采集程序,运维监控集群负载、调度状态

  • acx-collector-app-xxx.jar:Java开发的集群指标采集服务
  • gridview-install、gridview_share:曙光GridView超算集群管理平台安装包与共享配置(集群资源监控页面程序)
  • MPT_Monitor_system.0.dbg:集群监控程序崩溃日志

六、Hadoop、大数据相关

hadoop:分布式大数据环境,部分高通量HTC大数据计算共用。

七、备份目录(历史数据备份,不运行任务)

复制代码
gv_bak、backup、backup20240131、backup_xglg_20251028、sql_bakup_y、vnc_bak_20240416、ldap_backup

数据库、配置、系统定时备份包,存放历史归档,不要在里面跑HTC任务

八、源码&项目开发目录

sourcecode、models、training

  • sourcecode:各类仿真、AI项目公共源码
  • models:公共预训练模型权重(全集群共享,AI任务不用每个用户重复下载)
  • training:公共AI训练数据集目录

九、用户自建项目目录(课题组公用文件)

albert、jly、mhf、hjl、caix、ty、zong、wuzz、nihao

用户名缩写文件夹,各个课题组放在/public的公共工程、脚本(全节点共享,同组人HTC任务通用)

share、share_of_wu:用户小组共享目录

十、杂项工具、测试、临时

复制代码
test、test_slurm_update_0702、tmp_1、template、New Folder
  • template:HTC/SLURM脚本模板存放处
  • test:各类软件临时测试目录

十一、其他运维工具

  • arthas.tar.gz:Java进程故障排查工具
  • telnet-xxx.rpm:远程调试工具安装包
  • netcdf:气象/海洋数据格式依赖库(GeoEast、波浪模拟必备)

十二 多个用户共享文件

/public/home

HTC使用实操总结

  1. 加载软件环境 :作业脚本开头 source /public/GROMACS.setting / 从/public/software加载DCU环境
  2. 公用模型/数据集 :直接读 /public/alphafold、/public/models、/public/training
  3. 提交脚本模板 :复制job_BASE.slurm改写成自己的HTC任务脚本
  4. ❌ 禁止在backup/xxx_bak备份目录读写作业临时文件

需要我给你一个标准HTC脚本示例吗?

相关推荐
蓝速科技1 小时前
蓝速科技 AI 数字人全息舱商用落地实战指南
人工智能·科技
Maydaycxc1 小时前
Excel/WPS 自动化实战:科学计数法、千张表格循环处理、打包交付的多工具对比
python·自动化·excel·wps·rpa
py小王子1 小时前
Nature 期刊图复刻|带内嵌边缘密度的多组时序回归拟合图
python·nature·期刊图片复现
玫幽倩1 小时前
2026盘古石取证决赛(手机取证)
python·电子取证·计算机取证·聊天软件·手机取证·fic
Akamai中国1 小时前
客户案例 | 重构部署体验,流媒体开源走向轻量化
人工智能·云计算·云服务
TechWayfarer1 小时前
IP精准定位服务接入实战:广告投放如何用位置数据做定向策略
python·网络协议·tcp/ip·flask
开源量化GO1 小时前
2026年期货量化主流工具期货与期权程序化选型:统一维护能力对照
python
古月开发1 小时前
智能客服系统设计避坑指南:从需求分析到持续优化
人工智能·自动化·个人开发
Fortinet_CHINA1 小时前
AI正在重塑网络安全格局,但技能差距仍是核心风险
人工智能·安全·web安全