SothisAI 是曙光给超算/智算中心用的「AI 任务管理+算力调度平台

SothisAI 是曙光给超算/智算中心用的「AI 任务管理+算力调度平台」,你在超算上跑深度学习、大模型训练,基本都是它在背后管资源、排任务、发环境。

下面按你的场景(超算 + 大模型/LoRA 训练)用大白话讲清楚:


1. SothisAI 是什么?

  • 中科曙光自研的一站式 AI 算力管理平台(类似超算上的"AI 操作系统")
  • 核心是把一堆 GPU/DCU 集群,做成多用户共享、任务排队、自动调度、环境隔离的平台
  • 底层用 Slurm + K8s 双调度,容器化,支持 PyTorch/TensorFlow 等

2. 对你来说,它主要干 4 件事

① 管资源:你不用管哪台机器、哪张卡

  • 超算很多节点(几十/几百台),每台多卡
  • SothisAI 统一调度,你只需要提需求:我要几卡、跑多久、用什么镜像
  • 它自动找空闲节点,给你分配,节点之间不用你管通信(你之前"服务器不能互相通讯"是正常的,它就是这么设计的)

② 给环境:一键拿到装好 PyTorch/Transformer 的容器

  • 不用自己装驱动、CUDA、框架、依赖
  • 平台预装好各种镜像,你直接启动 Jupyter/SSH 就能用

③ 排任务:超算人多,按优先级排队,防止大家抢卡

  • 你提交训练任务 → 进入队列 → 有空资源自动跑
  • 最大运行时间限制(比如 24h/48h/72h),到时间会被系统停掉(你之前 50h 崩就是这个原因,不是步数问题)

④ 监控+日志:看显存、利用率、报错

  • 网页界面看:每张卡利用率、显存、loss 曲线
  • 日志集中收集,不用去节点上找 log

3. 和你训练直接相关的关键点(非常重要)

✅ 你这种"离线独立训 LoRA + 事后合并"

  • 完全不需要节点之间通信
  • 每个分片步数可以不一样(5000/6000 没问题)
  • 崩溃原因是:单任务跑太久(>48h)被 SothisAI 调度系统杀了,和步数是否统一无关

✅ SothisAI 不要求"所有任务步数一致"

  • 它只管:给你分配资源、到时间杀任务、隔离环境
  • 不管:你跑多少步、loss 多少、是否同步

4. 一句话总结(你记这句就行)

SothisAI 是超算的「AI 大管家」:帮你分 GPU、给环境、排任务、控时间;你各节点独立训 LoRA,步数不用对齐,崩是因为跑太久超时,不是它要求步数一致。


要不要我帮你按 14.79s/it 和你超算的最大时长限制 ,给每个分片单独算一个安全的 max_steps,避免超时被 SothisAI 杀掉?

相关推荐
aqi003 小时前
15天学会AI应用开发(七)有了大模型为什么还要引入RAG
人工智能·python·大模型·ai编程·ai应用
用户5191495848454 小时前
libcurl Headers API 释放后重利用漏洞:跨请求复用头句柄导致堆内存安全风险
人工智能·aigc
踩蚂蚁4 小时前
自定义语音唤醒词:从训练到部署的完整链路实践
人工智能
用户5191495848454 小时前
CVE-2025-1094 PostgreSQL SQL注入与WebSocket劫持远程代码执行利用工具
人工智能·aigc
IT_陈寒5 小时前
SpringBoot自动配置这个坑,我踩进去又爬出来了
前端·人工智能·后端
冬奇Lab16 小时前
Agent 系列(23):Web Agent——让 Agent 真正浏览网页
人工智能·llm·agent
冬奇Lab17 小时前
每日一个开源项目(第135篇):codebase-memory-mcp - 给 AI Agent 一张代码库的知识图谱
人工智能·开源·llm