随机种子定不死找bug

记录一次debug的心路历程

在运行别人的开源项目时遇到了随机种子定不死的情况, 运行一开始会有1e-5次方左右的误差, 后面误差会越来越大。

一开始以为是随机种子没有定死, 使用的以下代码固定的随机种子:

python 复制代码
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)  # if you are using multi-GPU,为所有GPU设置随机种子
    np.random.seed(seed)
    random.seed(seed)
    torch.backends.cudnn.benchmark = False
    torch.backends.cudnn.deterministic = True

发现结果依然随机, 其表现形式为:训练时训练数据第一次经过模型产生的输出与loss完全相同, 但是, 经过一次backward之后第二个循环就会产生区别。这时的区别在1e-5左右,如果放任不管,第一个epoch训练完成产生的结果差异巨大。

一开始认为是网络的问题,存在某些网络层会引入随机性,但是,将第一次循环后的optimizer中的网络梯度打印出来,发现绝大多数的网络层会有1e-6左右的误差。

其次是怀疑整个网络使用了 getattr(torchvision.models, name)( replace_stride_with_dilation=[False, False, dilation], pretrained=False, norm_layer=FrozenBatchNorm2d) 引入的随机性, 但是将这个模块提出来单独测试后也排除了问题。

陷入了僵局,在确保输入完全相同,网络结构也无随机性的情况下,将目光看向了loss函数上,经过了一些简单的小测试(对于所有的预测结果不做任何后处理,全改成MSE loss),发现并无随机性,将问题定位到了loss的后处理上。

最后经过逐行定位,发现问题出现在torch.gather中。并且发现往上也有类似的贴子在说这个问题
https://discuss.pytorch.org/t/torch-gather-uncontrollable-randomness-quirky/63631

其他也可能引入随机性的操作: os.listdir(), set() - set()

还需要注意一个问题, 那就是多卡时打印顺序的问题,如下2次实验结果相同, 但是打印的顺序不同!此时得到的效果也是稳定可复现的。

相关推荐
wow_DG3 天前
【Python✨】VS Code 秒开 Python 类型检查:一招 mypy + settings.json 让你的 Bug 原地现形!
python·json·bug
驱动探索者5 天前
Zephyr 获取 cpu 占用率异常bug分析
bug·rtos·zephyr
薛定e的猫咪6 天前
【调试技巧】vscode 四种断点调试,快速定位 bug
ide·vscode·python·bug
万粉变现经纪人6 天前
如何解决 pip install 编译报错 ‘cl.exe’ not found(缺少 VS C++ 工具集)问题
开发语言·c++·人工智能·python·pycharm·bug·pip
月小满7 天前
DataV轮播时其他组件的内容也一起滚动 修复bug的方法
前端·vue.js·bug·大屏端
桃子丫7 天前
AD转 Cadence学习指南-BUG篇
bug
testtraveler7 天前
[Fix] ImportError: libtorch_cpu.so: undefined symbol: iJIT_NotifyEvent
pytorch·python·bug
测试者家园8 天前
从“找 bug”到“降风险”:测试思维模式的底层迁移
软件测试·bug·风险管理·持续测试·测试基础·智能化测试·测试思维模式
chde2Wang8 天前
运行scala文件报错xsbt.CompilerInterface
bug·scala
离离茶9 天前
【笔记1-8】Qt bug记录:QListWidget窗口的浏览模式切换为ListMode后,滚轮滚动速度变慢
笔记·qt·bug