SwanLab 在监控什么?

当你将 report_to="swanlab" 传递给 Trainer 时,它会自动接管以下内容的监控:

A. 训练指标(实验数据)
  • Loss (损失值):衡量模型学习效果的核心指标,你会看到它随着步数增加而下降。

  • Learning Rate (学习率):监控学习率的变化曲线(虽然你目前设的是恒定值)。

  • Epoch/Step:当前的训练轮次和进度。

  • Grad Norm (梯度范数):通过监控梯度爆炸或消失来判断训练稳定性。

B. 系统指标(硬件状态)
  • GPU Memory (显存占用):你可以实时看到 5090 到底占用了多少 GB。

  • GPU Utilization (显卡利用率):反映你的数据读取(DataLoader)是否成了瓶颈。

  • GPU Temperature (温度):长时间训练时,监控 5090 是否过热。

  • CPU & RAM:系统内存和处理器的负载情况。

C. 超参数记录
  • 它会记录你在 TrainingArgumentsswanlab.init 字典里填入的所有参数(如 LORA_R, MAX_LENGTH 等),方便你以后对比不同实验的效果。
相关推荐
MobotStone7 小时前
为什么在AI时代,“好奇心”成了最值钱的能力?
人工智能
武子康8 小时前
调查研究-200 llama.cpp b9754:一次很小但很关键的 Agent 工具调用修复
人工智能·agent·llama
Ralph_Salar8 小时前
从0到1搭建AI智能支付风控助手Stage1-RAG知识库升级 — 元数据让检索更精准
人工智能
武子康8 小时前
调查研究-199 MCP Zero-Touch OAuth:为什么它是 MCP 进入企业生产的关键门槛?
人工智能·agent·mcp
冬奇Lab8 小时前
每日一个开源项目(第144篇):ai-website-cloner-template - 一条命令、多 Agent 并行,把任意网站逆向成 Next.js 代码
前端·人工智能·开源
冬奇Lab8 小时前
AI 原生组织不是买工具,而是让等待消失
人工智能·工作流引擎
半个落月8 小时前
从数据集划分理解大模型的数据工程
人工智能
_清歌8 小时前
DSpark 深度解读:DeepSeek-V4 如何用「半自回归」把推理速度提升 85%
算法
统计实现局8 小时前
SVD 的三步走:双对角化、Givens 收敛、排序
算法