LIDAR:用于结构裂缝多模态分割的轻量级自适应提示感知融合视觉曼巴

  1. 现有的核心问题是什么?

    • 多模态裂缝分割任务中,需在低计算成本下实现像素级分割,但现有方法难以高效感知和融合跨模态的形态与纹理线索。
    • 单模态(如RGB)方法易受光照变化、背景噪声影响,无法捕捉红外热异常、偏振变化、深度空间层次等多模态信息,在复杂视觉条件(光照不均、背景杂乱、边界模糊)下性能下降。
    • 多模态建模中,跨模态特征的选择性交互和噪声抑制能力不足,导致关键细节丢失;同时需平衡模型效率与性能,以适应边缘部署需求。
  2. 现有方法存在什么缺陷?

    • CNN-based方法:虽能捕捉关键区域形态线索,但感受野有限、归纳偏置强,难以建模连续纹理模式,且大量卷积操作导致计算开销高。
    • Transformer-based方法:虽能有效捕捉形态和纹理线索,但注意力机制计算复杂度随输入长度呈二次增长,在高分辨率图像上训练和推理成本高,不适合边缘部署。
    • 现有扫描策略:扫描策略固定(如统一规则扫描),缺乏对复杂、图像特异性纹理线索和拓扑结构的适应性,导致分割不连续或模糊;融合时缺乏选择性交互和噪声抑制,高频关键区域易漏检;堆叠过多VSS块、使用重参数卷积,参数和计算开销大,限制资源受限设备部署。

图1展示了LIDAR在光场深度数据集上的性能表现,包含三个部分:(a)与最先进方法的性能对比,显示LIDAR在取得最佳性能的同时所需计算资源最少;(b)不同卷积类型对性能的影响,表明LDMK卷积使LIDAR在保持较少参数的情况下实现了最佳性能;(c)复杂条件下双模态图像的分割结果,体现了LIDAR在复杂场景中生成清晰分割图的能力。

  1. 本文的创新解决方案是什么?
  • 核心结构创新:提出LacaVSS(轻量级自适应线索感知视觉状态空间模块) ,其核心是EDG-SS(高效动态引导扫描策略)。基于预扫描掩码动态优先处理裂缝区域,通过积分图像快速评估各块重要性,构建自适应扫描路径(水平/垂直方向结合正逆序),优先处理裂缝区域,提升纹理建模效率和裂缝-背景分离精度;扫描序列仅在预处理阶段生成一次,避免冗余计算,大幅降低延迟。

图2展示了LIDAR的整体架构及LacaVSS模块的结构:(a)为LIDAR的网络架构,多模态输入经LacaVSS模块分层提取形态和纹理线索后,由LD3CF模块融合多模态、跨层级特征,通过AFDP增强频域特征、双池化策略等生成高质量分割图,流程中包含LDMK卷积、上采样等操作;(b)为LacaVSS模块结构,输入特征经DPDD去噪、LDMK处理后,结合EDG-SS生成的自适应扫描序列,通过SS2D模块进行状态建模,融合多方向扫描输出以增强特征表达。

  • 计算效率创新:设计LDMK(轻量级动态调制多kernel卷积) ,通过动态中间通道选择机制(基于通道重要性评分选择Top-k通道)和自适应核策略(3/5/7种kernel尺寸结合可学习缩放/偏移参数),在多感受野捕捉形态线索的同时,通过EMA策略平滑通道激活率,减少计算开销,替代多数卷积操作以轻量化模型。 图3展示了LDMK(轻量级动态调制多内核卷积)的架构,该卷积通过自适应多内核特征提取,对从输入特征中筛选出的Top-K最重要通道进行处理。其流程为:先通过点卷积将输入通道投影至中间维度,计算各通道的重要性分数并筛选出Top-K通道生成二进制掩码进行通道剪枝,再利用多个共享深度卷积核(尺寸为3、5、7)结合可学习的缩放和偏移参数捕获不同感受野的纹理特征,最后将各卷积分支的输出沿通道维度拼接,经点卷积恢复输出维度并添加残差连接,从而在减少参数和计算成本的同时,有效提取与裂缝相关的关键形态线索。

  • 融合机制创新:提出LD3CF(轻量级双域动态协同融合模块) ,包含AFDP(自适应频域感知器),通过实值FFT将特征投影到频域,结合方向感知卷积和可学习软掩码增强高频裂缝特征、抑制低频背景噪声;配合双池化融合策略(平均池化+最大池化)和动态门控,实现跨模态、跨层级特征的高效交互,在低计算成本下生成高质量分割图。

相关推荐
whaosoft-14326 分钟前
51c自动驾驶~合集13
人工智能
双向3331 分钟前
Agent在游戏行业的应用:NPC智能化与游戏体验提升
人工智能
Eloudy1 小时前
矩阵的条件数 向量的条件数
人工智能·机器学习·矩阵分析
七月稻草人1 小时前
飞算JavaAI:人工智能与Java的创新融合与应用前景
开发语言·人工智能·ai编程·java开发·飞算javaai炫技赛
张登杰踩1 小时前
OpenCV cv2.flip() 函数详解与示例
人工智能·opencv·计算机视觉
是乐谷2 小时前
饿了么招java开发咯
java·开发语言·人工智能·程序人生·面试·职场和发展
Mory_Herbert2 小时前
【李宏毅-2024】第六讲 大语言模型的训练过程1——预训练(Pre-training)
人工智能·语言模型·自然语言处理
lindawang2 小时前
AI大模型提示词工程完全指南:从入门到精通
人工智能·llm
AORO20252 小时前
三防平板+天通卫星电话,打通无人之境的通信经脉
大数据·网络·人工智能·5g·电脑·信息与通信
lindawang2 小时前
在Mac上搭建本地AI工作流:Dify与DeepSeek的完美结合
人工智能·llm