学习日记（2026年3月29日）

今天的工作让我真正理解了，指标高不等于模型好。最初看到 mAP≈0.93 时，我误以为已经取得了很好的效果。但当按照规范重新划分数据集后，指标骤降到 0.69------原来高分只是"数据划分不规范"带来的假象。核心教训：没有可靠的评估体系，任何优化都是盲目的。

数据划分随意 → 评估失真

训练/验证/测试集存在泄漏或分布不均。学到了：必须先建立标准化的数据划分流程，确保 baseline 真实可信。
模型结构与数据配置混淆

以为换了 yolo11n.pt 就是换了模型，忽略了 yaml 中路径、类别等配置的影响。工程上要严格区分"模型结构"和"数据配置"。
路径混乱，缺乏工程控制
/kaggle/working 与 /kaggle/input 不分，yaml 文件反复修改却没有版本记录。科研也需要工程规范，之后我会统一管理路径、保存每次实验的配置文件。
baseline 未稳定就盲目改结构

在没有稳定 baseline 的情况下尝试 P2 层等改动。对照实验的前提是 baseline 可复现，以后必须"先固化，再优化"。

问题拆解，而不是直接调参

指标下降后，我分析了小目标比例（34%）和各类别召回率（helmet/vest 仅 0.5），明确核心矛盾是"小目标感知不足"，而非单纯的精度问题。
调整 Mosaic 增强比例

实验发现 Mosaic=1.0 会严重破坏小目标结构，降低到 0.5 后指标有所回升。理解了数据增强不是越强越好，而要和目标尺度分布匹配。
引入 P2 检测层

从 P3~P5 扩展到 P2~P5，将特征图分辨率从 stride 8 提升到 stride 4，直接针对小目标问题。方向已被验证合理，最终结果正在训练中。