-
现有的核心问题是什么?
- 多模态裂缝分割任务中,需在低计算成本下实现像素级分割,但现有方法难以高效感知和融合跨模态的形态与纹理线索。
- 单模态(如RGB)方法易受光照变化、背景噪声影响,无法捕捉红外热异常、偏振变化、深度空间层次等多模态信息,在复杂视觉条件(光照不均、背景杂乱、边界模糊)下性能下降。
- 多模态建模中,跨模态特征的选择性交互和噪声抑制能力不足,导致关键细节丢失;同时需平衡模型效率与性能,以适应边缘部署需求。
-
现有方法存在什么缺陷?
- CNN-based方法:虽能捕捉关键区域形态线索,但感受野有限、归纳偏置强,难以建模连续纹理模式,且大量卷积操作导致计算开销高。
- Transformer-based方法:虽能有效捕捉形态和纹理线索,但注意力机制计算复杂度随输入长度呈二次增长,在高分辨率图像上训练和推理成本高,不适合边缘部署。
- 现有扫描策略:扫描策略固定(如统一规则扫描),缺乏对复杂、图像特异性纹理线索和拓扑结构的适应性,导致分割不连续或模糊;融合时缺乏选择性交互和噪声抑制,高频关键区域易漏检;堆叠过多VSS块、使用重参数卷积,参数和计算开销大,限制资源受限设备部署。
图1展示了LIDAR在光场深度数据集上的性能表现,包含三个部分:(a)与最先进方法的性能对比,显示LIDAR在取得最佳性能的同时所需计算资源最少;(b)不同卷积类型对性能的影响,表明LDMK卷积使LIDAR在保持较少参数的情况下实现了最佳性能;(c)复杂条件下双模态图像的分割结果,体现了LIDAR在复杂场景中生成清晰分割图的能力。
- 本文的创新解决方案是什么?
- 核心结构创新:提出LacaVSS(轻量级自适应线索感知视觉状态空间模块) ,其核心是EDG-SS(高效动态引导扫描策略)。基于预扫描掩码动态优先处理裂缝区域,通过积分图像快速评估各块重要性,构建自适应扫描路径(水平/垂直方向结合正逆序),优先处理裂缝区域,提升纹理建模效率和裂缝-背景分离精度;扫描序列仅在预处理阶段生成一次,避免冗余计算,大幅降低延迟。
图2展示了LIDAR的整体架构及LacaVSS模块的结构:(a)为LIDAR的网络架构,多模态输入经LacaVSS模块分层提取形态和纹理线索后,由LD3CF模块融合多模态、跨层级特征,通过AFDP增强频域特征、双池化策略等生成高质量分割图,流程中包含LDMK卷积、上采样等操作;(b)为LacaVSS模块结构,输入特征经DPDD去噪、LDMK处理后,结合EDG-SS生成的自适应扫描序列,通过SS2D模块进行状态建模,融合多方向扫描输出以增强特征表达。
-
计算效率创新:设计LDMK(轻量级动态调制多kernel卷积) ,通过动态中间通道选择机制(基于通道重要性评分选择Top-k通道)和自适应核策略(3/5/7种kernel尺寸结合可学习缩放/偏移参数),在多感受野捕捉形态线索的同时,通过EMA策略平滑通道激活率,减少计算开销,替代多数卷积操作以轻量化模型。
图3展示了LDMK(轻量级动态调制多内核卷积)的架构,该卷积通过自适应多内核特征提取,对从输入特征中筛选出的Top-K最重要通道进行处理。其流程为:先通过点卷积将输入通道投影至中间维度,计算各通道的重要性分数并筛选出Top-K通道生成二进制掩码进行通道剪枝,再利用多个共享深度卷积核(尺寸为3、5、7)结合可学习的缩放和偏移参数捕获不同感受野的纹理特征,最后将各卷积分支的输出沿通道维度拼接,经点卷积恢复输出维度并添加残差连接,从而在减少参数和计算成本的同时,有效提取与裂缝相关的关键形态线索。
-
融合机制创新:提出LD3CF(轻量级双域动态协同融合模块) ,包含AFDP(自适应频域感知器),通过实值FFT将特征投影到频域,结合方向感知卷积和可学习软掩码增强高频裂缝特征、抑制低频背景噪声;配合双池化融合策略(平均池化+最大池化)和动态门控,实现跨模态、跨层级特征的高效交互,在低计算成本下生成高质量分割图。