关于息肉检测和识别项目的总结

前言

复制代码

整体的思路：首先息肉数据集分为三类：
1.正常细胞 
2. 增生性息肉 
3.  肿瘤

要想完成这个任务，首先重中之重是分割任务，分割结果的好坏，当分割结果达到一定的准确度后，开始对分割后的结果进行下游分类任务处理。最后在进行两个网络的分类结果的综合处理，从而达到想要的目的和结果。

分割网络的实现

分割网络我们常见的是UNet、Unet++、以及各种Unet的魔改版，这是因为Unet强大的泛化性，以及它能在分割的大部分领域表现出良好的性能所决定的，本次项目的实现并未选择Unet进行实现，而是选择了ESFPNet进行任务分割。这里是关于这个网络的代码，有兴趣的同学可以搜索查看。

关于ESFP网络结构的介绍

复制代码

from Encoder import mit
from Decoder import mlp
from mmcv.cnn import ConvModule

class ESFPNetStructure(nn.Module):

    def __init__(self, embedding_dim = 160):
        super(ESFPNetStructure, self).__init__()
        
        # Backbone
        if model_type == 'B0':
            self.backbone = mit.mit_b0()
        if model_type == 'B1':
            self.backbone = mit.mit_b1()
        if model_type == 'B2':
            self.backbone = mit.mit_b2()
        if model_type == 'B3':
            self.backbone = mit.mit_b3()
        if model_type == 'B4':
            self.backbone = mit.mit_b4()
        if model_type == 'B5':
            self.backbone = mit.mit_b5()
        
        self._init_weights()  # load pretrain
        
        # LP Header
        self.LP_1 = mlp.LP(input_dim = self.backbone.embed_dims[0], embed_dim = self.backbone.embed_dims[0])
        self.LP_2 = mlp.LP(input_dim = self.backbone.embed_dims[1], embed_dim = self.backbone.embed_dims[1])
        self.LP_3 = mlp.LP(input_dim = self.backbone.embed_dims[2], embed_dim = self.backbone.embed_dims[2])
        self.LP_4 = mlp.LP(input_dim = self.backbone.embed_dims[3], embed_dim = self.backbone.embed_dims[3])
        
        # Linear Fuse
        self.linear_fuse34 = ConvModule(in_channels=(self.backbone.embed_dims[2] + self.backbone.embed_dims[3]), out_channels=self.backbone.embed_dims[2], kernel_size=1,norm_cfg=dict(type='BN', requires_grad=True))
        self.linear_fuse23 = ConvModule(in_channels=(self.backbone.embed_dims[1] + self.backbone.embed_dims[2]), out_channels=self.backbone.embed_dims[1], kernel_size=1,norm_cfg=dict(type='BN', requires_grad=True))
        self.linear_fuse12 = ConvModule(in_channels=(self.backbone.embed_dims[0] + self.backbone.embed_dims[1]), out_channels=self.backbone.embed_dims[0], kernel_size=1,norm_cfg=dict(type='BN', requires_grad=True))
        
        # Fused LP Header
        self.LP_12 = mlp.LP(input_dim = self.backbone.embed_dims[0], embed_dim = self.backbone.embed_dims[0])
        self.LP_23 = mlp.LP(input_dim = self.backbone.embed_dims[1], embed_dim = self.backbone.embed_dims[1])
        self.LP_34 = mlp.LP(input_dim = self.backbone.embed_dims[2], embed_dim = self.backbone.embed_dims[2])
        
        # Final Linear Prediction
        self.linear_pred = nn.Conv2d((self.backbone.embed_dims[0] + self.backbone.embed_dims[1] + self.backbone.embed_dims[2] + self.backbone.embed_dims[3]), 1, kernel_size=1)
        
    def _init_weights(self):
        
        if model_type == 'B0':
            pretrained_dict = torch.load('./Pretrained/mit_b0.pth')
        if model_type == 'B1':
            pretrained_dict = torch.load('./Pretrained/mit_b1.pth')
        if model_type == 'B2':
            pretrained_dict = torch.load('./Pretrained/mit_b2.pth')
        if model_type == 'B3':
            pretrained_dict = torch.load('./Pretrained/mit_b3.pth')
        if model_type == 'B4':
            pretrained_dict = torch.load('./Pretrained/mit_b4.pth')
        if model_type == 'B5':
            pretrained_dict = torch.load('./Pretrained/mit_b5.pth')
            
            
        model_dict = self.backbone.state_dict()
        pretrained_dict = {k: v for k, v in pretrained_dict.items() if k in model_dict}
        model_dict.update(pretrained_dict)
        self.backbone.load_state_dict(model_dict)
        print("successfully loaded!!!!")
        
        
    def forward(self, x):
#         这段代码是一个模型的前向传递过程。该模型首先通过backbone网络，
#         对输入的x进行特征提取，得到4个不同分辨率的特征图。
#         然后将这些特征图送入LP Header网络进行处理，融合不同层次的特征。
#         接着通过上采样（interpolation）将处理后的特征图进行恢复到原始输入图像尺寸大小，
#         并最终送入线性预测器（linear_pred）获得输出结果。
        ##################  Go through backbone ###################
        
        B = x.shape[0]
        
        #stage 1
        out_1, H, W = self.backbone.patch_embed1(x)
        for i, blk in enumerate(self.backbone.block1):
            out_1 = blk(out_1, H, W)
        out_1 = self.backbone.norm1(out_1)
        #将输入特征图out_1从形状(Batch_Size, N, W, H)变形为(Batch_Size, H, W, N)
        #其中-1表示自动计算N的值。接着使用permute函数将特征维度N和高宽维度H、W交换位置
        #变成(Batch_Size, N, H, W)的形状
        out_1 = out_1.reshape(B, H, W, -1).permute(0, 3, 1, 2).contiguous()  #(Batch_Size, self.backbone.embed_dims[0], 88, 88)
        
        # stage 2
        out_2, H, W = self.backbone.patch_embed2(out_1)
        for i, blk in enumerate(self.backbone.block2):
            out_2 = blk(out_2, H, W)
        out_2 = self.backbone.norm2(out_2)
        out_2 = out_2.reshape(B, H, W, -1).permute(0, 3, 1, 2).contiguous()  #(Batch_Size, self.backbone.embed_dims[1], 44, 44)
        
        # stage 3
        out_3, H, W = self.backbone.patch_embed3(out_2)
        for i, blk in enumerate(self.backbone.block3):
            out_3 = blk(out_3, H, W)
        out_3 = self.backbone.norm3(out_3)
        out_3 = out_3.reshape(B, H, W, -1).permute(0, 3, 1, 2).contiguous()  #(Batch_Size, self.backbone.embed_dims[2], 22, 22)
        
        # stage 4
        out_4, H, W = self.backbone.patch_embed4(out_3)
        for i, blk in enumerate(self.backbone.block4):
            out_4 = blk(out_4, H, W)
        out_4 = self.backbone.norm4(out_4)
        out_4 = out_4.reshape(B, H, W, -1).permute(0, 3, 1, 2).contiguous()  #(Batch_Size, self.backbone.embed_dims[3], 11, 11)
        
        # go through LP Header
        lp_1 = self.LP_1(out_1)
        lp_2 = self.LP_2(out_2)  
        lp_3 = self.LP_3(out_3)  
        lp_4 = self.LP_4(out_4)
        
        # linear fuse and go pass LP Header     上采样并拼接
        lp_34 = self.LP_34(self.linear_fuse34(torch.cat([lp_3, F.interpolate(lp_4,scale_factor=2,mode='bilinear', align_corners=False)], dim=1)))
        lp_23 = self.LP_23(self.linear_fuse23(torch.cat([lp_2, F.interpolate(lp_34,scale_factor=2,mode='bilinear', align_corners=False)], dim=1)))
        lp_12 = self.LP_12(self.linear_fuse12(torch.cat([lp_1, F.interpolate(lp_23,scale_factor=2,mode='bilinear', align_corners=False)], dim=1)))
        
        # get the final output
        lp4_resized = F.interpolate(lp_4,scale_factor=8,mode='bilinear', align_corners=False)
        lp3_resized = F.interpolate(lp_34,scale_factor=4,mode='bilinear', align_corners=False)
        lp2_resized = F.interpolate(lp_23,scale_factor=2,mode='bilinear', align_corners=False)
        lp1_resized = lp_12
        
        out = self.linear_pred(torch.cat([lp1_resized, lp2_resized, lp3_resized, lp4_resized], dim=1))
        out_resized = F.interpolate(out,scale_factor=4,mode='bilinear', align_corners=True)
        
        return out_resized

上述图片和代码是关于ESFP核心网络的编写，下面就来详细介绍一下这个网络。

backbone（部分引用于原论文）

使用model_type来加载预训练模型，这里有5个参数可选。通过指定的预训练权重来初始化backbone网络。
Mix Transformer编码器(MiT)是一个模块，它利用了ViT网络的思想，并在四个阶段中使用四个重叠的路径合并模块和自注意力预测。
transformer使用的自注意力层缺乏局部归纳偏差(图像像素是局部相关的，其相关图是平移不变的概念)，会导致数据饥饿问题。
为了缓解受小数据集限制的应用面临的数据饥饿挑战，可以利用广泛使用的迁移学习的概念。MiT的编码器利用了这个想法，在大型ImageNet数据库上进行了预训练对于我们的ESPFNet架构，将这些预训练的MiT编码器集成为骨干，并用初始化的解码器再次训练它们。
这是一种直接的方法，可以在小型特定任务数据集表现良好性能，同时也能够超过最先进的CNN模型的性能。

Efficient stage-wise feature pyramid（ESFP）

高层(全局)特征比低层(局部)特征对整体分割性能的贡献更大。ESFP首先对每个阶段的输出进行线性预测(有效的是连接通道的数量)，然后将这些预处理的特征从全局到局部线性融合。这些中间聚合特征被连接起来，并相互协作产生最终的分割。
在训练之前，将输入调整为352 × 352像素，并将其归一化以进行分割。我们还使用随机翻转、旋转和亮度变化作为输入的数据增强操作。损失函数结合了加权交联(IoU)损失和加权二元交叉熵(BCE)损失:

实现细节

这一部分是关于MIt 编码器对图像进行编码的操作。

这一部分则是ESFP对网络进行解码的过程。

复制代码

 # LP Header
        self.LP_1 = mlp.LP(input_dim = self.backbone.embed_dims[0], embed_dim = self.backbone.embed_dims[0])
        self.LP_2 = mlp.LP(input_dim = self.backbone.embed_dims[1], embed_dim = self.backbone.embed_dims[1])
        self.LP_3 = mlp.LP(input_dim = self.backbone.embed_dims[2], embed_dim = self.backbone.embed_dims[2])
        self.LP_4 = mlp.LP(input_dim = self.backbone.embed_dims[3], embed_dim = self.backbone.embed_dims[3])

self.backbone.embed_dims $0$ $1$ $2$ $3$ 、获取到相应分辨率的特征图通道数,在这里输入和输出通道是相同的维度数。
LP Header用于对不同分辨率的特征图进行进一步的处理和提取，以获得更加有用的信息，为后续的特征融合和预测操作做准备。

Linear Fuse（线性融合）

复制代码

        # Linear Fuse
        self.linear_fuse34 = ConvModule(in_channels=(self.backbone.embed_dims[2] + self.backbone.embed_dims[3]), out_channels=self.backbone.embed_dims[2], kernel_size=1,norm_cfg=dict(type='BN', requires_grad=True))
        self.linear_fuse23 = ConvModule(in_channels=(self.backbone.embed_dims[1] + self.backbone.embed_dims[2]), out_channels=self.backbone.embed_dims[1], kernel_size=1,norm_cfg=dict(type='BN', requires_grad=True))
        self.linear_fuse12 = ConvModule(in_channels=(self.backbone.embed_dims[0] + self.backbone.embed_dims[1]), out_channels=self.backbone.embed_dims[0], kernel_size=1,norm_cfg=dict(type='BN', requires_grad=True))

通过上述的网络结构图可以看出，我们需要3个线性融合层。
通过ConvModule来定义Linear Fuse层，其中in_channels表示Linear Fuse的输入通道数，由两个特征图的通道数相加得到。out_channels表示Linear Fuse的输出通道数，与对应层次的特征图通道数相同。
通过这些Linear Fuse层的操作，可以将不同分辨率的特征图进行融合，从而提高特征的表达能力和多尺度信息的利用效果

复制代码

# Fused LP Header
        self.LP_12 = mlp.LP(input_dim = self.backbone.embed_dims[0], embed_dim = self.backbone.embed_dims[0])
        self.LP_23 = mlp.LP(input_dim = self.backbone.embed_dims[1], embed_dim = self.backbone.embed_dims[1])
        self.LP_34 = mlp.LP(input_dim = self.backbone.embed_dims[2], embed_dim = self.backbone.embed_dims[2])

将融合后的特征图的通道数变换为与backbone的对应层次的特征图通道数相同的维度。
用于对线性融合后的特征图进行进一步的特征提取和转换，以获得更加有用的信息，并为最终的预测操作做准备

Final Linear Prediction(最终线性预测)

复制代码

# Final Linear Prediction
        self.linear_pred = nn.Conv2d((self.backbone.embed_dims[0] + self.backbone.embed_dims[1] + self.backbone.embed_dims[2] + self.backbone.embed_dims[3]), 1, kernel_size=1)

n.Conv2d用于定义一个二维卷积层，其中的输入通道数为融合后的特征图的通道数总和。
输入通道是各个分辨率维度的总和，输出通道为1，表示进行目标检测的预测结果。
这个最终的线性预测层将融合后的特征图映射到一维的通道上，以输出目标检测的预测结果。这样，通过特征融合与转换后的特征图，可以进行最终的目标检测操作并得到预测结果。

前向传播

复制代码

       B = x.shape[0]
        
       #stage 1
       out_1, H, W = self.backbone.patch_embed1(x)
       for i, blk in enumerate(self.backbone.block1):
           out_1 = blk(out_1, H, W)
       out_1 = self.backbone.norm1(out_1)
       #将输入特征图out_1从形状(Batch_Size, N, W, H)变形为(Batch_Size, H, W, N)
       #其中-1表示自动计算N的值。接着使用permute函数将特征维度N和高宽维度H、W交换位置
       #变成(Batch_Size, N, H, W)的形状
       out_1 = out_1.reshape(B, H, W, -1).permute(0, 3, 1, 2).contiguous()  #(Batch_Size, self.backbone.embed_dims[0], 88, 88)
       
       # stage 2
       out_2, H, W = self.backbone.patch_embed2(out_1)
       for i, blk in enumerate(self.backbone.block2):
           out_2 = blk(out_2, H, W)
       out_2 = self.backbone.norm2(out_2)
       out_2 = out_2.reshape(B, H, W, -1).permute(0, 3, 1, 2).contiguous()  #(Batch_Size, self.backbone.embed_dims[1], 44, 44)
       
       # stage 3
       out_3, H, W = self.backbone.patch_embed3(out_2)
       for i, blk in enumerate(self.backbone.block3):
           out_3 = blk(out_3, H, W)
       out_3 = self.backbone.norm3(out_3)
       out_3 = out_3.reshape(B, H, W, -1).permute(0, 3, 1, 2).contiguous()  #(Batch_Size, self.backbone.embed_dims[2], 22, 22)
       
       # stage 4
       out_4, H, W = self.backbone.patch_embed4(out_3)
       for i, blk in enumerate(self.backbone.block4):
           out_4 = blk(out_4, H, W)
       out_4 = self.backbone.norm4(out_4)
       out_4 = out_4.reshape(B, H, W, -1).permute(0, 3, 1, 2).contiguous()  #(Batch_Size, self.backbone.embed_dims[3], 11, 11)
       
       # go through LP Header
       lp_1 = self.LP_1(out_1)
       lp_2 = self.LP_2(out_2)  
       lp_3 = self.LP_3(out_3)  
       lp_4 = self.LP_4(out_4)
       
       # linear fuse and go pass LP Header     上采样并拼接
       lp_34 = self.LP_34(self.linear_fuse34(torch.cat([lp_3, F.interpolate(lp_4,scale_factor=2,mode='bilinear', align_corners=False)], dim=1)))
       lp_23 = self.LP_23(self.linear_fuse23(torch.cat([lp_2, F.interpolate(lp_34,scale_factor=2,mode='bilinear', align_corners=False)], dim=1)))
       lp_12 = self.LP_12(self.linear_fuse12(torch.cat([lp_1, F.interpolate(lp_23,scale_factor=2,mode='bilinear', align_corners=False)], dim=1)))
       
       # get the final output
       lp4_resized = F.interpolate(lp_4,scale_factor=8,mode='bilinear', align_corners=False)
       lp3_resized = F.interpolate(lp_34,scale_factor=4,mode='bilinear', align_corners=False)
       lp2_resized = F.interpolate(lp_23,scale_factor=2,mode='bilinear', align_corners=False)
       lp1_resized = lp_12
       
       out = self.linear_pred(torch.cat([lp1_resized, lp2_resized, lp3_resized, lp4_resized], dim=1))
       out_resized = F.interpolate(out,scale_factor=4,mode='bilinear', align_corners=True)

前向传播的过程，就是将结果中的完整过程串联起来，进行完整的预测。输入x的形状为(Batch_Size, C, H, W)，其中B表示批量大小，C表示通道数，H和W分别表示输入特征图的高度和宽度

阶段1

复制代码

        out_1, H, W = self.backbone.patch_embed1(x)
        for i, blk in enumerate(self.backbone.block1):
            out_1 = blk(out_1, H, W)
        out_1 = self.backbone.norm1(out_1)
         out_1 = out_1.reshape(B, H, W, -1).permute(0, 3, 1, 2).contiguous()

通过self.backbone.patch_embed1对输入特征图进行分块嵌入操作，得到输出特征图out_1和新的高度H和宽度W
进行self.backbone.block1中的一系列残差块操作，对输出特征图out_1进行特征提取。
对out_1进行归一化处理，得到归一化后的特征图out_1。
将输入特征图out_1从形状(Batch_Size,H，W)变形为(Batch_Size，N， H, W)，通过reshape进行N维度的计算，-1表示自动计算N的值。接着使用permute函数将特征维度N和高宽维度H、W交换位置，变成(Batch_Size, N, H, W)的形状

阶段2、3、4

与上述阶段一的操作大致相同，也就是图中最上面一层，backbone网络的操作。

复制代码

        # go through LP Header
        lp_1 = self.LP_1(out_1)
        lp_2 = self.LP_2(out_2)  
        lp_3 = self.LP_3(out_3)  
        lp_4 = self.LP_4(out_4)

将out_1、out_2、out_3、out_4分别输入到对应的LP模块中（LP_1、LP_2、LP_3、LP_4），得到相应的低层级特征表示lp_1、lp_2、lp_3、lp_4。

也就是黑色框中所做的事情。

线性融合与上采样：

复制代码

 # linear fuse and go pass LP Header     上采样并拼接
        lp_34 = self.LP_34(self.linear_fuse34(torch.cat([lp_3, F.interpolate(lp_4,scale_factor=2,mode='bilinear', align_corners=False)], dim=1)))
        lp_23 = self.LP_23(self.linear_fuse23(torch.cat([lp_2, F.interpolate(lp_34,scale_factor=2,mode='bilinear', align_corners=False)], dim=1)))
        lp_12 = self.LP_12(self.linear_fuse12(torch.cat([lp_1, F.interpolate(lp_23,scale_factor=2,mode='bilinear', align_corners=False)], dim=1)))

使用torch.cat函数将lp_3与经过上采样后的lp_4拼接起来，然后通过self.linear_fuse34和LP_34模块进行线性融合，得到lp_34。
类似地，通过拼接和线性融合操作得到lp_23和lp_12。

最终上采样

复制代码

       # get the final output
        lp4_resized = F.interpolate(lp_4,scale_factor=8,mode='bilinear', align_corners=False)
        lp3_resized = F.interpolate(lp_34,scale_factor=4,mode='bilinear', align_corners=False)
        lp2_resized = F.interpolate(lp_23,scale_factor=2,mode='bilinear', align_corners=False)
        lp1_resized = lp_12

对lp_4进行上采样操作，得到lp4_resized，上采样因子为8；
对lp_34进行上采样操作，得到lp3_resized，上采样因子为4；
对lp_23进行上采样操作，得到lp2_resized，上采样因子为2；
lp_12不进行上采样。

最终输出

复制代码

 out = self.linear_pred(torch.cat([lp1_resized, lp2_resized, lp3_resized, lp4_resized], dim=1))
 out_resized = F.interpolate(out,scale_factor=4,mode='bilinear', align_corners=True)

使用torch.cat函数将lp1_resized、lp2_resized、lp3_resized和lp4_resized进行拼接，得到形状为(B, N, H, W)的特征图。
将拼接后的特征图通过self.linear_pred和线性预测模块进行特征转换，得到最终的输出特征图out。
对out进行上采样操作，得到out_resized，上采样因子为4。
最后对结果进行 Sigmod和Threshold便可以得到分割后的Output。、

分类网络介绍

分割任务完成了，那分类任务则是在分割任务的基础上，再做下游的分类任务。分类网络结构如下

复制代码

self.conv_layers = nn.Sequential(
                nn.Conv2d(4, 128, kernel_size=3, padding=1),
                nn.ReLU(),
                nn.Conv2d(128, 256, kernel_size=3, padding=1),
                nn.ReLU(),
                nn.MaxPool2d(kernel_size=2, stride=2),
                nn.Conv2d(256, 512, kernel_size=3, padding=1),
                nn.ReLU(),
                nn.Conv2d(512, 512, kernel_size=3, padding=1),
                nn.ReLU(),
                nn.MaxPool2d(kernel_size=2, stride=2)
            )

            self.fc_layers = nn.Sequential(
                nn.Flatten(),
                nn.Linear(16**2*512, 512),  # 调整大小以适应您的需求
                nn.ReLU(),
                nn.Dropout(0.3),
                nn.Linear(512, 256),  # 调整大小以适应您的需求
                nn.ReLU(),
                nn.Dropout(0.3),
                nn.Linear(256, 3),
                nn.LogSoftmax(dim=1)
            )

首先对其进行4次卷积和3次最大池化进行下采样和特征提取。随后定义一个全连接层让通道数最终降到我们所需要的分类数，最后再做一次Softmax。

前向传播过程

前向传播过程则是将我们之前做好的分割结果，和原图进行通道维度cat连接后，再进行一最大池化操作，然后进行分类操作。我们对不同种类的数据做了one-hot类别编码。

以上就是大致总统思路，后续代码会上传到github

关于息肉检测和识别项目的总结

前言

分割网络的实现

关于ESFP网络结构的介绍

backbone（部分引用于原论文）

Efficient stage-wise feature pyramid（ESFP）

实现细节

LP Header

Linear Fuse（线性融合）

Fused LP Header（融合的LP Header）

Final Linear Prediction(最终线性预测)

前向传播

阶段1

阶段2、3、4

LP Header

线性融合与上采样：

最终上采样

最终输出

分类网络介绍

前向传播过程