论深度学习训练过程中数据集打乱的重要性

Believe yourself!!!2024-11-28 11:34

浅浅记录一下今天遇到的一个很有意思的问题：

今天在重新训练一个之前跑过的模型时候，突然发现训练损失一直居高不下，一直保持在0.6左右，就感觉很奇怪，为什么之前训练的时候没有问题，之前训练的时候loss是正常下降的，为什么今天重新把代码拉出来跑的时候，就出现loss不下降的问题呢？带着这个问题，我就狠狠调试，发现代码逻辑啥的都没有问题，为此调试了一整天，然后刚刚坐在实验室的时候，突然想着要不把中间结果输出看看，然后我就单独挑了几例数据训练一下，结果一看，发现我的每一个epoch加载的数据顺序是一样的，也就是说，我的DataLoader中的shuffle这个参数是False，按理来说，shuffle设置为False，也就是数据集的加载顺序不变，这应该不会影响模型的训练，确实，对于自然图像来说，由于训练集中的每张图像都是独立，所以即使数据集的加载顺序不变，也不影响模型的训练，但是，由于我研究的领域是医学图像，主要是脑肿瘤的MRI图像，一般MRI图像都是3D数据，我会把这个3D数据中沿着轴向面提取slice，这样一来，数据集之间是有内在关联的，即前后两张图片是极为相似的，所以如果此时再将shuffle设置为False的话，就会严重影响模型的训练，在我将shuffle改为True后，我的模型有可以正常训练了！

目前以上说法只是我对于这个问题的一个猜想，不确定是否正确，但是实验观察的现象确实是将shuffle改为True以后，模型就可以正常训练了。