当你将 report_to="swanlab" 传递给 Trainer 时,它会自动接管以下内容的监控:
A. 训练指标(实验数据)
-
Loss (损失值):衡量模型学习效果的核心指标,你会看到它随着步数增加而下降。
-
Learning Rate (学习率):监控学习率的变化曲线(虽然你目前设的是恒定值)。
-
Epoch/Step:当前的训练轮次和进度。
-
Grad Norm (梯度范数):通过监控梯度爆炸或消失来判断训练稳定性。
B. 系统指标(硬件状态)
-
GPU Memory (显存占用):你可以实时看到 5090 到底占用了多少 GB。
-
GPU Utilization (显卡利用率):反映你的数据读取(DataLoader)是否成了瓶颈。
-
GPU Temperature (温度):长时间训练时,监控 5090 是否过热。
-
CPU & RAM:系统内存和处理器的负载情况。
C. 超参数记录
- 它会记录你在
TrainingArguments和swanlab.init字典里填入的所有参数(如LORA_R,MAX_LENGTH等),方便你以后对比不同实验的效果。