SothisAI 是曙光给超算/智算中心用的「AI 任务管理+算力调度平台

zhangfeng11332026-05-10 18:58

SothisAI 是曙光给超算/智算中心用的「AI 任务管理+算力调度平台」，你在超算上跑深度学习、大模型训练，基本都是它在背后管资源、排任务、发环境。

下面按你的场景（超算 + 大模型/LoRA 训练）用大白话讲清楚：

1. SothisAI 是什么？

中科曙光自研的一站式 AI 算力管理平台（类似超算上的"AI 操作系统"）
核心是把一堆 GPU/DCU 集群，做成多用户共享、任务排队、自动调度、环境隔离的平台
底层用 Slurm + K8s 双调度，容器化，支持 PyTorch/TensorFlow 等

2. 对你来说，它主要干 4 件事

① 管资源：你不用管哪台机器、哪张卡

超算很多节点（几十/几百台），每台多卡
SothisAI 统一调度，你只需要提需求：我要几卡、跑多久、用什么镜像
它自动找空闲节点，给你分配，节点之间不用你管通信（你之前"服务器不能互相通讯"是正常的，它就是这么设计的）

② 给环境：一键拿到装好 PyTorch/Transformer 的容器

不用自己装驱动、CUDA、框架、依赖
平台预装好各种镜像，你直接启动 Jupyter/SSH 就能用

③ 排任务：超算人多，按优先级排队，防止大家抢卡

你提交训练任务 → 进入队列 → 有空资源自动跑
有最大运行时间限制（比如 24h/48h/72h），到时间会被系统停掉（你之前 50h 崩就是这个原因，不是步数问题）

④ 监控+日志：看显存、利用率、报错

网页界面看：每张卡利用率、显存、loss 曲线
日志集中收集，不用去节点上找 log

3. 和你训练直接相关的关键点（非常重要）

✅ 你这种"离线独立训 LoRA + 事后合并"

完全不需要节点之间通信
每个分片步数可以不一样（5000/6000 没问题）
崩溃原因是：单任务跑太久（>48h）被 SothisAI 调度系统杀了，和步数是否统一无关

✅ SothisAI 不要求"所有任务步数一致"

它只管：给你分配资源、到时间杀任务、隔离环境
不管：你跑多少步、loss 多少、是否同步

4. 一句话总结（你记这句就行）

SothisAI 是超算的「AI 大管家」：帮你分 GPU、给环境、排任务、控时间；你各节点独立训 LoRA，步数不用对齐，崩是因为跑太久超时，不是它要求步数一致。

要不要我帮你按 14.79s/it 和你超算的最大时长限制 ，给每个分片单独算一个安全的 max_steps，避免超时被 SothisAI 杀掉？

上一篇：为什么很多人做Twitter半年都没结果？其实从一开始方向就错了

下一篇：Vue + Iframe 实战：打造企业级流程配置中心

热门推荐

01如何新建文件夹？电脑新建文件夹的4种方法 02GitHub 镜像站点 03国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI科技热点日报 | 2026年07月01日 09Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 102026 年 AI 大模型 & AI 编程工具实战全总结