pytorch 踩坑

pytorch 踩坑

在pytorch中,如果你定义了没用的组件,同样也会影响你的模型(我也不知道从哪里影响的),看一个例子

python 复制代码
    def _make_layer(self, block, planes, blocks, stride=1, dilate=False):
        norm_layer = self._norm_layer
        #downsample = None
        previous_dilation = self.dilation
        if dilate:
            self.dilation *= stride
            stride = 1
        # if stride != 1 or self.inplanes != planes:
        #     downsample = layer.SeqToANNContainer(
        #             nn.Conv2d(self.inplanes, planes, kernel_size=1, stride=stride),
        #             norm_layer(planes),
        #         )

        layers = []
        layers.append(block(self.inplanes, planes, stride
                            ))
        self.inplanes = planes 
        for _ in range(1, blocks):
            layers.append(block(self.inplanes, planes
                                ))

        return nn.Sequential(*layers)

这是传统的一个_make_layer,可以看到我把其中的downsample给注释掉了,他其实是个没用的组件,我之前也没管它,我没注释前,第一个epoch

注释后

就是他其实是不参与整体模型的,但是就是会影响,我估计是影响整体模型的初始化啥的了?说不定到最后等模型收敛了结果会是差不多的。。这里我就不验证了,如果有大神看到的话可以验证一下告诉我结果,感谢!!

动机是因为,我自己写了个pytorch网络结构,然后我想写成大家都在写的这种格式,就是都封装起来,结果我发现模型结构一样,为什么两个跑的结果不一样呢,初始化和随机种子我都设置了,于是我就想去找到底哪里有问题,后面就一步步的发现了这个问题,怎么说呢,虽然最后两边的结果还是有差异,但是不多,可能还是因为一些组件的定义、组件的顺序、以及其他很小的因素都会有影响,因此在这里劝大家代码还是要写规范,这样才和别人的baseline有的比~

我一天都在调这个bug,我就在想,两个同样结构的网络,我设置了同样的随机种子和初始化,怎么会结果不同呢?

经过我一天的实验发现,你网络层定义的位置,是否创建这个网络层,都会对结果有影响,例如,如果我的downsample是通过函数传递给basicblock和我直接在函数里定义downsample,那么这样跑出来的结果还是不一样,经过两个downsample定义的方式是一样的

最后希望大家不要想我一样硬钻牛角尖,因为这样其实到头来发现不是模型的问题而是本身pytorch的问题感觉有些浪费时间,但又希望大家可以适当的钻牛角尖,毕竟一切的结果都来源于大家的坚持

相关推荐
机器之心4 分钟前
魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令
人工智能
明月看潮生15 分钟前
青少年编程与数学 02-016 Python数据结构与算法 12课题、递归
python·算法·青少年编程·编程与数学
Romantic Rose15 分钟前
你所拨打的电话是空号?手机状态查询API
大数据·人工智能
批量小王子21 分钟前
批量统一图像色彩
python
羊小猪~~28 分钟前
深度学习基础--CNN经典网络之InceptionV1研究与复现(pytorch)
网络·人工智能·pytorch·深度学习·神经网络·机器学习·cnn
硅谷秋水1 小时前
AutoEval:现实世界中通才机器人操作策略的自主评估
人工智能·机器学习·计算机视觉·机器人
自在如风。1 小时前
Java 设计模式:装饰者模式详解
java·python·设计模式
weixin_457885821 小时前
DeepSeek的神经元革命:穿透搜索引擎算法的下一代内容基建
人工智能·算法·搜索引擎·deepseek·虎跃办公
大模型真好玩1 小时前
不写一行代码! VsCode+Cline+高德地图MCP Server 帮你搞定和女友的出行规划(附原理解析)
人工智能·python·mcp
再玩一会儿看代码1 小时前
pip 与 conda 的全面比较:Python 包管理的深度解析
经验分享·笔记·python·conda·课程设计·pip