SwanLab 在监控什么?

当你将 report_to="swanlab" 传递给 Trainer 时,它会自动接管以下内容的监控:

A. 训练指标(实验数据)
  • Loss (损失值):衡量模型学习效果的核心指标,你会看到它随着步数增加而下降。

  • Learning Rate (学习率):监控学习率的变化曲线(虽然你目前设的是恒定值)。

  • Epoch/Step:当前的训练轮次和进度。

  • Grad Norm (梯度范数):通过监控梯度爆炸或消失来判断训练稳定性。

B. 系统指标(硬件状态)
  • GPU Memory (显存占用):你可以实时看到 5090 到底占用了多少 GB。

  • GPU Utilization (显卡利用率):反映你的数据读取(DataLoader)是否成了瓶颈。

  • GPU Temperature (温度):长时间训练时,监控 5090 是否过热。

  • CPU & RAM:系统内存和处理器的负载情况。

C. 超参数记录
  • 它会记录你在 TrainingArgumentsswanlab.init 字典里填入的所有参数(如 LORA_R, MAX_LENGTH 等),方便你以后对比不同实验的效果。
相关推荐
dazzle2 小时前
机器学习算法原理与实践-入门(七):深度学习框架PyTorch的Tensor
深度学习·算法·机器学习
十铭忘2 小时前
OpenClaw的安装与使用 1
人工智能
2301_822782822 小时前
嵌入式C++调试技术
开发语言·c++·算法
2301_776508722 小时前
实时信号处理库
开发语言·c++·算法
Highcharts.js2 小时前
Highcharts for Python|用 Pythonic 的方式构建AI数据可视化图表
前端·人工智能·python·信息可视化·数据科学·highcharts·ai可视化
hans汉斯2 小时前
基于污点分析的PHP应用威胁检测平台
开发语言·人工智能·算法·yolo·目标检测·php·无人机
爱思德学术2 小时前
IEEE会议,录用率25.2%!CCF推荐学术会议(C)
计算机网络·算法·编程·软件工程·软件需求
大尚来也2 小时前
Java 线程池深度解析:ThreadPoolExecutor 七大参数与核心原理
java·python·算法
自在极意功。2 小时前
图像识别原理
图像处理·人工智能·计算机视觉