SwanLab 在监控什么?

当你将 report_to="swanlab" 传递给 Trainer 时,它会自动接管以下内容的监控:

A. 训练指标(实验数据)
  • Loss (损失值):衡量模型学习效果的核心指标,你会看到它随着步数增加而下降。

  • Learning Rate (学习率):监控学习率的变化曲线(虽然你目前设的是恒定值)。

  • Epoch/Step:当前的训练轮次和进度。

  • Grad Norm (梯度范数):通过监控梯度爆炸或消失来判断训练稳定性。

B. 系统指标(硬件状态)
  • GPU Memory (显存占用):你可以实时看到 5090 到底占用了多少 GB。

  • GPU Utilization (显卡利用率):反映你的数据读取(DataLoader)是否成了瓶颈。

  • GPU Temperature (温度):长时间训练时,监控 5090 是否过热。

  • CPU & RAM:系统内存和处理器的负载情况。

C. 超参数记录
  • 它会记录你在 TrainingArgumentsswanlab.init 字典里填入的所有参数(如 LORA_R, MAX_LENGTH 等),方便你以后对比不同实验的效果。
相关推荐
voidmort1 分钟前
13. 强化学习中的评估、奖励设计与 Reward Hacking
人工智能
Studying 开龙wu2 分钟前
16位工业灰度图的深度学习预处理:从方法选择到ImageJ实战
人工智能·深度学习
烟雨江南7856 分钟前
特高压输电线路带电作业直升机吊篮与强电磁感应放电:基于“灵声智库”空间自适应滤波与声纹授权的离线语音控制指令方案
人工智能·ffmpeg·webrtc·语音识别·ai质检
清辞8538 分钟前
入门大模型工程师第十课----学习总结
大数据·人工智能·深度学习·学习·语言模型
zhangfeng11338 分钟前
那nvidia orim车载gpu tee安全飞地 和天垓 100 gpgpu的 飞地 ,大概有多大存储量 ,解密流程
人工智能·深度学习·安全·语言模型·gpu算力·芯片
蔡不菜和他的uU们22 分钟前
vLLM实践之个人AI基建——云端vLLM+SSH Tunnel+本地Cherry Studio
人工智能·ssh·vllm
黄啊码27 分钟前
8个AI,同一道高考作文题,同一个结果:我的那篇最好
人工智能
m0_7372469828 分钟前
QDKT产品拆解&设计
人工智能
xinlianyq31 分钟前
TikTok短视频生成工具哪家好?跨境出海如何用 AI 实现爆款视频复刻
人工智能·aigc
嵌入式老牛36 分钟前
液晶段码(米/日字格)识别—倾斜校正
opencv·算法·仿射变换