SothisAI 是曙光给超算/智算中心用的「AI 任务管理+算力调度平台

SothisAI 是曙光给超算/智算中心用的「AI 任务管理+算力调度平台」,你在超算上跑深度学习、大模型训练,基本都是它在背后管资源、排任务、发环境。

下面按你的场景(超算 + 大模型/LoRA 训练)用大白话讲清楚:


1. SothisAI 是什么?

  • 中科曙光自研的一站式 AI 算力管理平台(类似超算上的"AI 操作系统")
  • 核心是把一堆 GPU/DCU 集群,做成多用户共享、任务排队、自动调度、环境隔离的平台
  • 底层用 Slurm + K8s 双调度,容器化,支持 PyTorch/TensorFlow 等

2. 对你来说,它主要干 4 件事

① 管资源:你不用管哪台机器、哪张卡

  • 超算很多节点(几十/几百台),每台多卡
  • SothisAI 统一调度,你只需要提需求:我要几卡、跑多久、用什么镜像
  • 它自动找空闲节点,给你分配,节点之间不用你管通信(你之前"服务器不能互相通讯"是正常的,它就是这么设计的)

② 给环境:一键拿到装好 PyTorch/Transformer 的容器

  • 不用自己装驱动、CUDA、框架、依赖
  • 平台预装好各种镜像,你直接启动 Jupyter/SSH 就能用

③ 排任务:超算人多,按优先级排队,防止大家抢卡

  • 你提交训练任务 → 进入队列 → 有空资源自动跑
  • 最大运行时间限制(比如 24h/48h/72h),到时间会被系统停掉(你之前 50h 崩就是这个原因,不是步数问题)

④ 监控+日志:看显存、利用率、报错

  • 网页界面看:每张卡利用率、显存、loss 曲线
  • 日志集中收集,不用去节点上找 log

3. 和你训练直接相关的关键点(非常重要)

✅ 你这种"离线独立训 LoRA + 事后合并"

  • 完全不需要节点之间通信
  • 每个分片步数可以不一样(5000/6000 没问题)
  • 崩溃原因是:单任务跑太久(>48h)被 SothisAI 调度系统杀了,和步数是否统一无关

✅ SothisAI 不要求"所有任务步数一致"

  • 它只管:给你分配资源、到时间杀任务、隔离环境
  • 不管:你跑多少步、loss 多少、是否同步

4. 一句话总结(你记这句就行)

SothisAI 是超算的「AI 大管家」:帮你分 GPU、给环境、排任务、控时间;你各节点独立训 LoRA,步数不用对齐,崩是因为跑太久超时,不是它要求步数一致。


要不要我帮你按 14.79s/it 和你超算的最大时长限制 ,给每个分片单独算一个安全的 max_steps,避免超时被 SothisAI 杀掉?

相关推荐
久违 °4 小时前
【AI-Agent】TagMatrix 数据标注工具开发
人工智能·数据分析·go·agent·数据隐私
AI360labs_atyun4 小时前
腾讯推出电子牛马Marvis,好用吗?
人工智能·科技·ai
Dfreedom.4 小时前
Windows、虚拟机、开发板组网通信原理及调试通联步骤
人工智能·windows·部署·边缘计算·开发板·模型加速
3DVisionary4 小时前
蓝光三维扫描:医疗制造的精度焦虑怎么解
人工智能·算法·制造·蓝光三维扫描·医疗制造·三维检测·义齿检测
Are_You_Okkk_4 小时前
基于MonkeyCode解析AI研发新模式,根治开发低效痛点
大数据·人工智能·开源·ai编程
好评笔记5 小时前
机器学习面试八股——常用损失函数
人工智能·深度学习·算法·机器学习·校招
weixin_468466855 小时前
全局与局部注意力机制新手实战指南
人工智能·python·深度学习·算法·自然语言处理·transformer·注意力机制
weixin_468466855 小时前
工业相机成像原理新手入门指南
人工智能·自动化·机器视觉·工业相机·光学·光学系统·成像原理
回眸&啤酒鸭5 小时前
【回眸】CSDN新增功能测评——AI数字营销之内容创作
人工智能
小糖学代码5 小时前
LLM系列:环境搭建:5.Python-dotenv 环境变量管理
人工智能·python·深度学习·神经网络