论文阅读FCN-Transformer Feature Fusion for PolypSegmentation

本文提出了一种名为Fully Convolutional Branch-TransFormer (FCBFormer)的图像分割框架。该架构旨在结合Transformer和全卷积网络(FCN)的优势,以提高结肠镜图像中息肉的检测和分类准确性。

1,框架结构:

模型采用双分支结构,两个并行分支:一个全卷积分支(FCB)和一个Transformer分支(TB)。FCB返回全尺寸(h×w)特征图,而TB返回降尺寸(h/4 × w/4)的特征图。TB的输出张量经过上采样并与FCB的输出张量在通道维度上进行拼接,然后通过预测头(PH)处理,生成输入图像的全尺寸分割图。

2,TB分支的结构

TB使用ImageNet预训练的金字塔视觉Transformer V2(PVTv2)作为图像编码器,该编码器返回一个具有4个级别的特征金字塔,这个金字塔随后被用作渐进式局部解码器(PLD)的输入。

在PLD中,金字塔的每个级别首先通过一个局部强调(LE)模块进行处理,以解决基于Transformer的模型在特征表示中表示局部特征的不足,然后通过逐步特征聚合(SFA)融合经过局部强调的金字塔特征。最后,融合的多尺度特征用于预测输入图像的分割图。

3,LE模块的结构

LE模块,即局部强调(Local Emphasis)模块,是SSFormer架构中用于增强Transformer编码器提取的特征的局部特征表示的组件。在FCBFormer的TB(Transformer Branch)中,LE模块的目的是通过强调图像的局部区域来改善Transformer模型在处理细节时的性能。

LE模块的具体由卷积层、激活函数、残差连接、组归一化、通道数调整等部分组成。

LE模块的设计旨在通过突出局部特征来弥补Transformer在处理精细细节时的不足,从而在分割任务中提供更准确的局部边界信息。

4,FCB分支的结构

如上图C所示,是由残差模块组成的U型结构。

5,实验结果

相关推荐
AI人工智能+3 分钟前
服务器端护照识别技术:通过图像预处理、OCR字符识别和智能分析实现高效身份核验
人工智能·深度学习·ocr·护照识别
猿代码_xiao1 小时前
大模型微调完整步骤( LLama-Factory)
人工智能·深度学习·自然语言处理·chatgpt·llama·集成学习
Ro Jace2 小时前
机器学习、深度学习、信号处理领域常用公式速查表
深度学习·机器学习·信号处理
加油吧zkf2 小时前
卷积神经网络(CNN)
人工智能·深度学习·cnn
哥布林学者3 小时前
吴恩达深度学习课程二: 改善深层神经网络 第一周:深度学习的实践(二)
深度学习·ai
森诺Alyson4 小时前
前沿技术借鉴研讨-2025.10.28(超声数据)
论文阅读·经验分享·深度学习·论文笔记·论文讨论
九年义务漏网鲨鱼5 小时前
BLIP2 工业实战(一):从零实现 LAVIS 跌倒检测 (微调与“踩坑”指南)
人工智能·pytorch·深度学习·语言模型
CoookeCola6 小时前
开源图像与视频过曝检测工具:HSV色彩空间分析与时序平滑处理技术详解
人工智能·深度学习·算法·目标检测·计算机视觉·开源·音视频
CoovallyAIHub7 小时前
万字详解:多目标跟踪(MOT)终极指南
深度学习·算法·计算机视觉
java1234_小锋7 小时前
PyTorch2 Python深度学习 - 初识PyTorch2,实现一个简单的线性神经网络
开发语言·python·深度学习·pytorch2