【求助帖(已解决)】用PyTorch搭建MLP网络时遇到奇怪的问题

(已解决,看最后)

求助:我在测试自己搭建的通用MLP网络时,发现它与等价的参数写死的MLP网络相比效果奇差无比,不知道是哪里出了问题,请大佬们帮忙看下。

我写的通用MLP网络:

python 复制代码
class MLP(nn.Module):
    def __init__(self, feature_num, class_num, *hidden_nums):
        super().__init__()
        self.feature_num = feature_num
        self.class_num = class_num
        self.hidden_nums = hidden_nums

        input_num = feature_num
        for i, hidden_num in enumerate(hidden_nums):
            self.__dict__['fc' + str(i)] = nn.Linear(input_num, hidden_num)
            input_num = hidden_num
        self.output = nn.Linear(input_num, class_num)

    def forward(self, x):
        for i in range(len(self.hidden_nums)):
            x = F.relu(self.__dict__['fc' + str(i)](x))
        x = self.output(x)[..., 0] if self.class_num == 1 else F.sigmoid(self.output(x))
        return x

按理说这样实例化时:

python 复制代码
model = MLP(57, 2, 30, 10)

它应该与下面这个网络等价:

python 复制代码
class MLPclassification(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc0 = nn.Linear(57, 30)
        self.fc1 = nn.Linear(30, 10)
        self.output = nn.Linear(10, 2)

    def forward(self, x):
        x = F.relu(self.fc0(x))
        x = F.relu(self.fc1(x))
        x = F.sigmoid(self.output(x))
        return x

但当我用model = MLP(57, 2, 30, 10)训练网络时,在二分类问题中,它把所有数据都预测成了类别0:

而用 model = MLPclassification()训练网络时,预测的效果很好:

我检查了半天,不知道是哪里出了问题,有没有大佬懂的,帮忙看下,十分感谢!


解决了!我检查了nn.Module的__setattr__()方法(向对象的name属性赋值、即定义实例变量时自动调用的方法),发现__setattr__()会将Module类型的变量移到_modules属性下面:

所以批量定义全连接层时不能直接向__dict__属性赋值,这样会绕过__setattr__()方法的类型检查,导致最后优化器无法通过model.parameters()获取并更新隐藏层的权重。所以应该在__dict__'_modules'属性中批量定义全连接层,就能解决这个问题了。更新后的通用MLP网络代码如下:

python 复制代码
class MLP(nn.Module):
    def __init__(self, feature_num, class_num, *hidden_nums):
        super().__init__()
        self.feature_num = feature_num
        self.class_num = class_num
        self.hidden_nums = hidden_nums

        input_num = feature_num
        for i, hidden_num in enumerate(hidden_nums):
            self.__dict__['_modules']['fc' + str(i)] = nn.Linear(input_num, hidden_num)
            input_num = hidden_num
        self.output = nn.Linear(input_num, class_num)

    def forward(self, x):
        for i in range(len(self.hidden_nums)):
            x = F.relu(self.__dict__['_modules']['fc' + str(i)](x))
        x = self.output(x)[..., 0] if self.class_num == 1 else F.softmax(self.output(x), dim=-1)
        return x

预测效果非常好:

感悟:看来没啥事还是不要随便动下划线开头的东西,你不知道会不会牵动到别的地方,出了问题处理起来挺麻烦的。

相关推荐
biter down4 分钟前
从 0 到 1 搭建 Python 接口自动化测试框架(博客系统实战)
开发语言·python
肖永威1 小时前
Python多业务并行计算框架插件化演进:从硬编码到动态注册
python·插件化·并行计算·动态注册
yz_aiks1 小时前
Linux Jar包配置Systemd自启动实战:从排查到配置全流程
linux·python·jar·自启动·systemd
不知名的老吴2 小时前
线程的生命周期之线程“插队“
java·开发语言·python
xsc6996753 小时前
从零搭建大模型与智能体平台 - 完整技术详解
python
无风听海4 小时前
多租户系统中的 OIDC:Discovery 端点与联合登录的深度实践
后端·python·flask
CTA终结者5 小时前
期货量化主力换月程序怎么移仓:天勤 underlying_symbol 与任务切换
python·区块链
马士兵教育5 小时前
Java还有前景吗?Java+AI大模型学习路线及项目?
java·人工智能·python·学习·机器学习
KaMeidebaby5 小时前
卡梅德生物技术快报|纯化重组蛋白实操详解
人工智能·python·tcp/ip·算法·机器学习
Cloud_Shy6185 小时前
解读《Effective Python 3rd Edition》:从练气到老魔(第五章 Item 30 - 32)
开发语言·人工智能·笔记·python·学习方法