随机种子定不死找bug

记录一次debug的心路历程

在运行别人的开源项目时遇到了随机种子定不死的情况, 运行一开始会有1e-5次方左右的误差, 后面误差会越来越大。

一开始以为是随机种子没有定死, 使用的以下代码固定的随机种子:

python 复制代码
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)  # if you are using multi-GPU,为所有GPU设置随机种子
    np.random.seed(seed)
    random.seed(seed)
    torch.backends.cudnn.benchmark = False
    torch.backends.cudnn.deterministic = True

发现结果依然随机, 其表现形式为:训练时训练数据第一次经过模型产生的输出与loss完全相同, 但是, 经过一次backward之后第二个循环就会产生区别。这时的区别在1e-5左右,如果放任不管,第一个epoch训练完成产生的结果差异巨大。

一开始认为是网络的问题,存在某些网络层会引入随机性,但是,将第一次循环后的optimizer中的网络梯度打印出来,发现绝大多数的网络层会有1e-6左右的误差。

其次是怀疑整个网络使用了 getattr(torchvision.models, name)( replace_stride_with_dilation=[False, False, dilation], pretrained=False, norm_layer=FrozenBatchNorm2d) 引入的随机性, 但是将这个模块提出来单独测试后也排除了问题。

陷入了僵局,在确保输入完全相同,网络结构也无随机性的情况下,将目光看向了loss函数上,经过了一些简单的小测试(对于所有的预测结果不做任何后处理,全改成MSE loss),发现并无随机性,将问题定位到了loss的后处理上。

最后经过逐行定位,发现问题出现在torch.gather中。并且发现往上也有类似的贴子在说这个问题
https://discuss.pytorch.org/t/torch-gather-uncontrollable-randomness-quirky/63631

其他也可能引入随机性的操作: os.listdir(), set() - set()

还需要注意一个问题, 那就是多卡时打印顺序的问题,如下2次实验结果相同, 但是打印的顺序不同!此时得到的效果也是稳定可复现的。

相关推荐
Pan Zonghui2 天前
GitHub Bug反馈与修复全流程指南
github·bug
进击切图仔2 天前
微调 qwen 时候踩坑记录
torch·tensorrt·qwen
初圣魔门首席弟子3 天前
bug 2026.05.15(以前能运行的java springboot项目突然间不能运行后台数据了)
java·开发语言·bug
Desenberg3 天前
【Claude Code】因为中途修改配置路径导致Claude Code 插件安装失败
windows·bug
QuestLab4 天前
维护 Hermes Agent CN 过程中的碎碎念,以及从bug上得到的一点点启发
bug
java修仙传4 天前
Java 实习日记:一次 Excel 导入校验 Bug 的定位与数据更新逻辑优化
java·数据库·bug·excel·后端开发
当战神遇到编程4 天前
软件测试基础入门:从 BUG 到测试用例设计完整指南
测试用例·bug
Bear on Toilet6 天前
3. BUG篇
bug
编程探索者小陈7 天前
【测试】之BUG篇
bug
棋宣7 天前
uni-app编译到微信小程序中,父传子props首次传递数据不接收的bug
微信小程序·uni-app·bug