LIDAR:用于结构裂缝多模态分割的轻量级自适应提示感知融合视觉曼巴

  1. 现有的核心问题是什么?

    • 多模态裂缝分割任务中,需在低计算成本下实现像素级分割,但现有方法难以高效感知和融合跨模态的形态与纹理线索。
    • 单模态(如RGB)方法易受光照变化、背景噪声影响,无法捕捉红外热异常、偏振变化、深度空间层次等多模态信息,在复杂视觉条件(光照不均、背景杂乱、边界模糊)下性能下降。
    • 多模态建模中,跨模态特征的选择性交互和噪声抑制能力不足,导致关键细节丢失;同时需平衡模型效率与性能,以适应边缘部署需求。
  2. 现有方法存在什么缺陷?

    • CNN-based方法:虽能捕捉关键区域形态线索,但感受野有限、归纳偏置强,难以建模连续纹理模式,且大量卷积操作导致计算开销高。
    • Transformer-based方法:虽能有效捕捉形态和纹理线索,但注意力机制计算复杂度随输入长度呈二次增长,在高分辨率图像上训练和推理成本高,不适合边缘部署。
    • 现有扫描策略:扫描策略固定(如统一规则扫描),缺乏对复杂、图像特异性纹理线索和拓扑结构的适应性,导致分割不连续或模糊;融合时缺乏选择性交互和噪声抑制,高频关键区域易漏检;堆叠过多VSS块、使用重参数卷积,参数和计算开销大,限制资源受限设备部署。

图1展示了LIDAR在光场深度数据集上的性能表现,包含三个部分:(a)与最先进方法的性能对比,显示LIDAR在取得最佳性能的同时所需计算资源最少;(b)不同卷积类型对性能的影响,表明LDMK卷积使LIDAR在保持较少参数的情况下实现了最佳性能;(c)复杂条件下双模态图像的分割结果,体现了LIDAR在复杂场景中生成清晰分割图的能力。

  1. 本文的创新解决方案是什么?
  • 核心结构创新:提出LacaVSS(轻量级自适应线索感知视觉状态空间模块) ,其核心是EDG-SS(高效动态引导扫描策略)。基于预扫描掩码动态优先处理裂缝区域,通过积分图像快速评估各块重要性,构建自适应扫描路径(水平/垂直方向结合正逆序),优先处理裂缝区域,提升纹理建模效率和裂缝-背景分离精度;扫描序列仅在预处理阶段生成一次,避免冗余计算,大幅降低延迟。

图2展示了LIDAR的整体架构及LacaVSS模块的结构:(a)为LIDAR的网络架构,多模态输入经LacaVSS模块分层提取形态和纹理线索后,由LD3CF模块融合多模态、跨层级特征,通过AFDP增强频域特征、双池化策略等生成高质量分割图,流程中包含LDMK卷积、上采样等操作;(b)为LacaVSS模块结构,输入特征经DPDD去噪、LDMK处理后,结合EDG-SS生成的自适应扫描序列,通过SS2D模块进行状态建模,融合多方向扫描输出以增强特征表达。

  • 计算效率创新:设计LDMK(轻量级动态调制多kernel卷积) ,通过动态中间通道选择机制(基于通道重要性评分选择Top-k通道)和自适应核策略(3/5/7种kernel尺寸结合可学习缩放/偏移参数),在多感受野捕捉形态线索的同时,通过EMA策略平滑通道激活率,减少计算开销,替代多数卷积操作以轻量化模型。 图3展示了LDMK(轻量级动态调制多内核卷积)的架构,该卷积通过自适应多内核特征提取,对从输入特征中筛选出的Top-K最重要通道进行处理。其流程为:先通过点卷积将输入通道投影至中间维度,计算各通道的重要性分数并筛选出Top-K通道生成二进制掩码进行通道剪枝,再利用多个共享深度卷积核(尺寸为3、5、7)结合可学习的缩放和偏移参数捕获不同感受野的纹理特征,最后将各卷积分支的输出沿通道维度拼接,经点卷积恢复输出维度并添加残差连接,从而在减少参数和计算成本的同时,有效提取与裂缝相关的关键形态线索。

  • 融合机制创新:提出LD3CF(轻量级双域动态协同融合模块) ,包含AFDP(自适应频域感知器),通过实值FFT将特征投影到频域,结合方向感知卷积和可学习软掩码增强高频裂缝特征、抑制低频背景噪声;配合双池化融合策略(平均池化+最大池化)和动态门控,实现跨模态、跨层级特征的高效交互,在低计算成本下生成高质量分割图。

相关推荐
人工智能训练3 小时前
【极速部署】Ubuntu24.04+CUDA13.0 玩转 VLLM 0.15.0:预编译 Wheel 包 GPU 版安装全攻略
运维·前端·人工智能·python·ai编程·cuda·vllm
源于花海4 小时前
迁移学习相关的期刊和会议
人工智能·机器学习·迁移学习·期刊会议
DisonTangor5 小时前
DeepSeek-OCR 2: 视觉因果流
人工智能·开源·aigc·ocr·deepseek
薛定谔的猫19825 小时前
二十一、基于 Hugging Face Transformers 实现中文情感分析情感分析
人工智能·自然语言处理·大模型 训练 调优
发哥来了5 小时前
《AI视频生成技术原理剖析及金管道·图生视频的应用实践》
人工智能
数智联AI团队6 小时前
AI搜索引领开源大模型新浪潮,技术创新重塑信息检索未来格局
人工智能·开源
不懒不懒6 小时前
【线性 VS 逻辑回归:一篇讲透两种核心回归模型】
人工智能·机器学习
冰西瓜6006 小时前
从项目入手机器学习——(四)特征工程(简单特征探索)
人工智能·机器学习
Ryan老房6 小时前
未来已来-AI标注工具的下一个10年
人工智能·yolo·目标检测·ai
丝斯20117 小时前
AI学习笔记整理(66)——多模态大模型MOE-LLAVA
人工智能·笔记·学习