SwanLab 在监控什么?

当你将 report_to="swanlab" 传递给 Trainer 时,它会自动接管以下内容的监控:

A. 训练指标(实验数据)
  • Loss (损失值):衡量模型学习效果的核心指标,你会看到它随着步数增加而下降。

  • Learning Rate (学习率):监控学习率的变化曲线(虽然你目前设的是恒定值)。

  • Epoch/Step:当前的训练轮次和进度。

  • Grad Norm (梯度范数):通过监控梯度爆炸或消失来判断训练稳定性。

B. 系统指标(硬件状态)
  • GPU Memory (显存占用):你可以实时看到 5090 到底占用了多少 GB。

  • GPU Utilization (显卡利用率):反映你的数据读取(DataLoader)是否成了瓶颈。

  • GPU Temperature (温度):长时间训练时,监控 5090 是否过热。

  • CPU & RAM:系统内存和处理器的负载情况。

C. 超参数记录
  • 它会记录你在 TrainingArgumentsswanlab.init 字典里填入的所有参数(如 LORA_R, MAX_LENGTH 等),方便你以后对比不同实验的效果。
相关推荐
xwz小王子1 分钟前
RoboLab:机器人通用策略泛化的仿真评估
人工智能·深度学习·机器人
小江的记录本5 分钟前
【RAG】RAG检索增强生成(核心架构、全流程、RAG优化方案、常见问题与解决方案)
java·前端·人工智能·后端·python·机器学习·架构
历程里程碑6 分钟前
二叉树---二叉树的最大深度
大数据·数据结构·算法·elasticsearch·搜索引擎·全文检索·深度优先
自我意识的多元宇宙8 分钟前
树与二叉树--树的基本概念
数据结构·算法
七夜zippoe9 分钟前
OpenClaw 飞书深度集成:知识库管理
大数据·人工智能·飞书·集成·openclaw
吃着火锅x唱着歌9 分钟前
LeetCode 678.有效的括号字符串
算法·leetcode·职场和发展
●VON11 分钟前
【AI工具】本地部署 Dify + Ollama 实现无限 Token 智能体搭建
人工智能·学习·dify·智能体·本地·von
ZPC821012 分钟前
arm_controller/follow_joint_trajectory action
人工智能·计算机视觉·机器人
人工智能AI技术14 分钟前
向量数据库基础:给智能体提供长期精准记忆
人工智能
ZzT15 分钟前
我做了一个 Claude Code 多 Agent 工作流的可视化编排平台
人工智能·claude