LIDAR:用于结构裂缝多模态分割的轻量级自适应提示感知融合视觉曼巴

  1. 现有的核心问题是什么?

    • 多模态裂缝分割任务中,需在低计算成本下实现像素级分割,但现有方法难以高效感知和融合跨模态的形态与纹理线索。
    • 单模态(如RGB)方法易受光照变化、背景噪声影响,无法捕捉红外热异常、偏振变化、深度空间层次等多模态信息,在复杂视觉条件(光照不均、背景杂乱、边界模糊)下性能下降。
    • 多模态建模中,跨模态特征的选择性交互和噪声抑制能力不足,导致关键细节丢失;同时需平衡模型效率与性能,以适应边缘部署需求。
  2. 现有方法存在什么缺陷?

    • CNN-based方法:虽能捕捉关键区域形态线索,但感受野有限、归纳偏置强,难以建模连续纹理模式,且大量卷积操作导致计算开销高。
    • Transformer-based方法:虽能有效捕捉形态和纹理线索,但注意力机制计算复杂度随输入长度呈二次增长,在高分辨率图像上训练和推理成本高,不适合边缘部署。
    • 现有扫描策略:扫描策略固定(如统一规则扫描),缺乏对复杂、图像特异性纹理线索和拓扑结构的适应性,导致分割不连续或模糊;融合时缺乏选择性交互和噪声抑制,高频关键区域易漏检;堆叠过多VSS块、使用重参数卷积,参数和计算开销大,限制资源受限设备部署。

图1展示了LIDAR在光场深度数据集上的性能表现,包含三个部分:(a)与最先进方法的性能对比,显示LIDAR在取得最佳性能的同时所需计算资源最少;(b)不同卷积类型对性能的影响,表明LDMK卷积使LIDAR在保持较少参数的情况下实现了最佳性能;(c)复杂条件下双模态图像的分割结果,体现了LIDAR在复杂场景中生成清晰分割图的能力。

  1. 本文的创新解决方案是什么?
  • 核心结构创新:提出LacaVSS(轻量级自适应线索感知视觉状态空间模块) ,其核心是EDG-SS(高效动态引导扫描策略)。基于预扫描掩码动态优先处理裂缝区域,通过积分图像快速评估各块重要性,构建自适应扫描路径(水平/垂直方向结合正逆序),优先处理裂缝区域,提升纹理建模效率和裂缝-背景分离精度;扫描序列仅在预处理阶段生成一次,避免冗余计算,大幅降低延迟。

图2展示了LIDAR的整体架构及LacaVSS模块的结构:(a)为LIDAR的网络架构,多模态输入经LacaVSS模块分层提取形态和纹理线索后,由LD3CF模块融合多模态、跨层级特征,通过AFDP增强频域特征、双池化策略等生成高质量分割图,流程中包含LDMK卷积、上采样等操作;(b)为LacaVSS模块结构,输入特征经DPDD去噪、LDMK处理后,结合EDG-SS生成的自适应扫描序列,通过SS2D模块进行状态建模,融合多方向扫描输出以增强特征表达。

  • 计算效率创新:设计LDMK(轻量级动态调制多kernel卷积) ,通过动态中间通道选择机制(基于通道重要性评分选择Top-k通道)和自适应核策略(3/5/7种kernel尺寸结合可学习缩放/偏移参数),在多感受野捕捉形态线索的同时,通过EMA策略平滑通道激活率,减少计算开销,替代多数卷积操作以轻量化模型。 图3展示了LDMK(轻量级动态调制多内核卷积)的架构,该卷积通过自适应多内核特征提取,对从输入特征中筛选出的Top-K最重要通道进行处理。其流程为:先通过点卷积将输入通道投影至中间维度,计算各通道的重要性分数并筛选出Top-K通道生成二进制掩码进行通道剪枝,再利用多个共享深度卷积核(尺寸为3、5、7)结合可学习的缩放和偏移参数捕获不同感受野的纹理特征,最后将各卷积分支的输出沿通道维度拼接,经点卷积恢复输出维度并添加残差连接,从而在减少参数和计算成本的同时,有效提取与裂缝相关的关键形态线索。

  • 融合机制创新:提出LD3CF(轻量级双域动态协同融合模块) ,包含AFDP(自适应频域感知器),通过实值FFT将特征投影到频域,结合方向感知卷积和可学习软掩码增强高频裂缝特征、抑制低频背景噪声;配合双池化融合策略(平均池化+最大池化)和动态门控,实现跨模态、跨层级特征的高效交互,在低计算成本下生成高质量分割图。

相关推荐
子午7 小时前
【食物识别系统】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积网络+resnet50算法
人工智能·python·深度学习
Dev7z7 小时前
基于深度学习和图像处理的药丸计数与分类系统研究
图像处理·人工智能·深度学习
Mxsoft6198 小时前
某次联邦学习训练模型不准,发现协议转换字段映射错,手动校验救场!
人工智能
shayudiandian8 小时前
用PyTorch训练一个猫狗分类器
人工智能·pytorch·深度学习
这儿有一堆花8 小时前
把 AI 装进终端:Gemini CLI 上手体验与核心功能解析
人工智能·ai·ai编程
子午8 小时前
【蘑菇识别系统】Python+TensorFlow+Vue3+Django+人工智能+深度学习+卷积网络+resnet50算法
人工智能·python·深度学习
模型启动机9 小时前
Langchain正式宣布,Deep Agents全面支持Skills,通用AI代理的新范式?
人工智能·ai·langchain·大模型·agentic ai
Python私教9 小时前
别让 API Key 裸奔:基于 TRAE SOLO 的大模型安全配置最佳实践
人工智能
Python私教9 小时前
Vibe Coding 体验报告:我让 TRAE SOLO 替我重构了 2000 行屎山代码,结果...
人工智能
prog_61039 小时前
【笔记】和各大AI语言模型写项目——手搓SDN后得到的经验
人工智能·笔记·语言模型