SothisAI 是曙光给超算/智算中心用的「AI 任务管理+算力调度平台

SothisAI 是曙光给超算/智算中心用的「AI 任务管理+算力调度平台」,你在超算上跑深度学习、大模型训练,基本都是它在背后管资源、排任务、发环境。

下面按你的场景(超算 + 大模型/LoRA 训练)用大白话讲清楚:


1. SothisAI 是什么?

  • 中科曙光自研的一站式 AI 算力管理平台(类似超算上的"AI 操作系统")
  • 核心是把一堆 GPU/DCU 集群,做成多用户共享、任务排队、自动调度、环境隔离的平台
  • 底层用 Slurm + K8s 双调度,容器化,支持 PyTorch/TensorFlow 等

2. 对你来说,它主要干 4 件事

① 管资源:你不用管哪台机器、哪张卡

  • 超算很多节点(几十/几百台),每台多卡
  • SothisAI 统一调度,你只需要提需求:我要几卡、跑多久、用什么镜像
  • 它自动找空闲节点,给你分配,节点之间不用你管通信(你之前"服务器不能互相通讯"是正常的,它就是这么设计的)

② 给环境:一键拿到装好 PyTorch/Transformer 的容器

  • 不用自己装驱动、CUDA、框架、依赖
  • 平台预装好各种镜像,你直接启动 Jupyter/SSH 就能用

③ 排任务:超算人多,按优先级排队,防止大家抢卡

  • 你提交训练任务 → 进入队列 → 有空资源自动跑
  • 最大运行时间限制(比如 24h/48h/72h),到时间会被系统停掉(你之前 50h 崩就是这个原因,不是步数问题)

④ 监控+日志:看显存、利用率、报错

  • 网页界面看:每张卡利用率、显存、loss 曲线
  • 日志集中收集,不用去节点上找 log

3. 和你训练直接相关的关键点(非常重要)

✅ 你这种"离线独立训 LoRA + 事后合并"

  • 完全不需要节点之间通信
  • 每个分片步数可以不一样(5000/6000 没问题)
  • 崩溃原因是:单任务跑太久(>48h)被 SothisAI 调度系统杀了,和步数是否统一无关

✅ SothisAI 不要求"所有任务步数一致"

  • 它只管:给你分配资源、到时间杀任务、隔离环境
  • 不管:你跑多少步、loss 多少、是否同步

4. 一句话总结(你记这句就行)

SothisAI 是超算的「AI 大管家」:帮你分 GPU、给环境、排任务、控时间;你各节点独立训 LoRA,步数不用对齐,崩是因为跑太久超时,不是它要求步数一致。


要不要我帮你按 14.79s/it 和你超算的最大时长限制 ,给每个分片单独算一个安全的 max_steps,避免超时被 SothisAI 杀掉?

相关推荐
金融Tech趋势派2 小时前
2026企业微信AI服务商实测:微盛·企微管家领跑私域客户运营赛道
大数据·人工智能·企业微信
武汉知识图谱科技2 小时前
从材料到实物:神经符号AI如何重构轨道车辆吸能结构仿真流程
人工智能·知识图谱
青岛前景互联信息技术有限公司2 小时前
又到一年开学季,大学校园安全管理中的突出问题分析
大数据·人工智能·物联网
折哥的程序人生 · 物流技术专研2 小时前
从“卡死”到“跑通”:WMS机器学习全流程实战排坑记
数据库·人工智能·机器学习
AC赳赳老秦2 小时前
可视化方案提效:用 OpenClaw 对接 XMind/ProcessOn,自动生成流程图、架构图、工作脑图
人工智能·深度学习·caffe·xmind·processon·deepseek·openclaw
coderyi2 小时前
理解AI Code Agent
人工智能·agent
Clark112 小时前
# 十年 C++ 后端 GAP 六个月,写了一个近 3 万行的LLM-TFFInfer推理框架项目解析(四)——Tensor 张量系统与内存抽象(上)
人工智能
jarvisuni2 小时前
Claude“山寨版”来了,支持中文,可配“任意模型”
人工智能·ai编程
NOCSAH2 小时前
统好AI:采购发票与付款管理的自动化协同实践
运维·人工智能·自动化·统好ai