SwanLab 在监控什么?

当你将 report_to="swanlab" 传递给 Trainer 时,它会自动接管以下内容的监控:

A. 训练指标(实验数据)
  • Loss (损失值):衡量模型学习效果的核心指标,你会看到它随着步数增加而下降。

  • Learning Rate (学习率):监控学习率的变化曲线(虽然你目前设的是恒定值)。

  • Epoch/Step:当前的训练轮次和进度。

  • Grad Norm (梯度范数):通过监控梯度爆炸或消失来判断训练稳定性。

B. 系统指标(硬件状态)
  • GPU Memory (显存占用):你可以实时看到 5090 到底占用了多少 GB。

  • GPU Utilization (显卡利用率):反映你的数据读取(DataLoader)是否成了瓶颈。

  • GPU Temperature (温度):长时间训练时,监控 5090 是否过热。

  • CPU & RAM:系统内存和处理器的负载情况。

C. 超参数记录
  • 它会记录你在 TrainingArgumentsswanlab.init 字典里填入的所有参数(如 LORA_R, MAX_LENGTH 等),方便你以后对比不同实验的效果。
相关推荐
CSND7405 分钟前
YOLO resume断点续训(不能用官方的权重,是自己训练一半生成的last.pt)
深度学习·yolo·机器学习
Kiling_07049 分钟前
Java集合进阶:Set与Collections详解
算法·哈希算法
AC赳赳老秦13 分钟前
供应链专员提效:OpenClaw自动跟踪物流信息、更新库存数据,异常自动提醒
java·大数据·服务器·数据库·人工智能·自动化·openclaw
脑极体18 分钟前
从Token消耗到DAA增长,AI价值标尺正在重构
人工智能·重构
csdn小瓯20 分钟前
LangGraph自适应工作流路由机制:从关键词匹配到智能决策的完整实现
人工智能·fastapi·langgraph
QYR-分析28 分钟前
高功率飞秒激光器行业发展现状、市场机遇及未来趋势分析
大数据·人工智能
智者知已应修善业30 分钟前
【51单片机89C51及74LS273、74LS244组成】2022-5-28
c++·经验分享·笔记·算法·51单片机
洛水水1 小时前
【力扣100题】33.验证二叉搜索树
算法·leetcode·职场和发展
AI医影跨模态组学1 小时前
J Clin Oncol(IF=43.4)美国Cedars-Sinai医学中心等团队:基于计算组织学人工智能的晚期胰腺癌化疗选择预测性生物标志物的开发与验证
人工智能·机器学习·论文·医学·医学影像·影像组学
SimpleLearingAI1 小时前
聚类算法详解
算法·数据挖掘·聚类