yolo12

一勺汤16 天前
yolo·改进·mamba·yolo11·yolo12·mambaout·yolo改进
使用Mambaout替换YOLObackbone 整合全局信息,提升遮挡目标检测中定位能力,以及小目标、多尺度近年来,Transformer 架构虽在各类任务中成为主流,但注意力机制的二次复杂度对长序列处理构成挑战。为此,类似 RNN 的模型如 Mamba 被引入,其核心是状态空间模型(SSM),旨在以线性复杂度处理长序列。然而,将 Mamba 应用于视觉任务时,其性能常不及卷积和基于注意力的模型。研究发现,Mamba 更适合兼具长序列和自回归特性的任务,而多数视觉任务(如图像分类)并不满足这些特性。基于此,研究者提出 MambaOut,通过移除 Mamba 块中的 SSM,仅保留门控 CNN 结构,验证 SSM
一勺汤25 天前
yolo·计算机视觉·多尺度·yolo12·yolo12改进·lsconv·小目标
YOLO12 改进|融入 大 - 小卷积LS Convolution 捕获全局上下文与小核分支提取局部细节,提升目标检测中的多尺度传统卷积核尺寸固定(如 3×3、5×5),在目标检测任务中面临两难:小卷积核(如 YOLOv5/YOLOv8 中的 3×3):计算高效但感受野有限,对大目标或密集场景建模能力不足。大卷积核(如 11×11、13×13):能捕获全局上下文,但参数量爆炸(如 13×13 卷积参数量是 3×3 的 20 倍以上),易过拟合且计算低效。LS Convolution(Large-Small Convolution) 应运而生,旨在平衡全局感知与局部细节,并通过结构创新降低大核计算成本
一勺汤1 个月前
yolo·计算机视觉·mamba·yolov12·yolo12·yolo12该机·yolo12 mamba
YOLO12 改进|融入 Mamba 架构:插入视觉状态空间模块 VSS Block 的硬核升级在医学图像分割领域,传统卷积神经网络(CNNs)受限于局部感受野,难以捕捉长距离依赖关系,而基于 Transformer 的模型因自注意力机制的二次计算复杂度,在处理高分辨率图像时效率低下。近年来,状态空间模型(SSMs)如 Mamba 展现出线性复杂度建模长序列的优势,其视觉变体 Vision Mamba(VMamba)通过引入二维选择性扫描机制,进一步提升了在图像任务中的全局特征提取能力。VSS Block 作为 VMamba 的核心组件,旨在解决传统模型在全局上下文建模与计算效率之间的矛盾,为医学图