(cvpr26) AIMDepth: Asymmetric Image-Event Mamba for Monocular Depth Estimation

1、研究动机

该论文研究事件相机+图像结合用于深度估计。如下图所示,当前方法包括隐式融合(多模态数据直接拼接输入编码器),显示融合(多模态分别提取特征,由融合模块融合特征),作者提出一种全新方案,输入数据先进行特征对齐(SCPG),同时构建非对称模态编码器(AME),然后中间进行模态交互局部细化(ModiLocal)。

2、模型框架

AIMDepth 采用类 U-Net结构,全程基于 SSM 搭建,整体分为四大核心模块,流程:输入预处理 → 输入层对齐 (SCPG) → 非对称模态编码器 (AME) → 模态交互局部细化 (ModiLocal) → Mamba 解码器 → 深度图输出。

(1)Spectral Cross-Modal Prior Guidance (SCPG)。 对图像、事件做二维离散傅里叶变换 (DFT),分解为振幅谱 + 相位谱。 **事件表征增强:**用掩码选取低频区域,将图像低频振幅替换事件低频振幅,保留事件原有高频时域动态,逆傅里叶变换得到结构增强后的事件表征。 图像表征增强: 事件相位谱保留精细边缘与运动边界,弥补静态图像时域缺失问题。选取全局响应最强的两个事件通道,提取其相位图;将原图与相位图通道拼接,为图像注入动态运动线索。

(2)Asymmetric Modal-Aware Encoder (AME)。 图像是稠密纹理,浅层网络可提取空间细节。事件是稀疏动态,深层网络才能挖掘时空语义。非对称特征选择即对图像特征,保留前 3 层浅层特征。对于事件特征,保留后3层深层特征。共享权重控制参数量,分层特征选择完成特征级模态对齐,适配两种模态的表达规律。

(3)ModiLocal Block。 先进行 ISS 全局交互式扫描,然后进行LSS局部空间扫描。模块收尾加入SE注意力,自适应加权通道特征。

相关推荐
code_pgf1 小时前
端到端自动驾驶 BEV stack
人工智能·机器学习·自动驾驶
wy3136228211 小时前
AI——移动端大模型部署新范式:基于sherpa-onnx的Android离线语音识别实战(语音转文字)
人工智能
果丁智能1 小时前
物联网智能锁赋能集中式住宿:身份核验与远程权限管控的全链路技术实践
大数据·人工智能·物联网·智能家居
下班走回家1 小时前
DeepSeek 开源模型的突破与思考:从技术到生态的全面进化
人工智能·开源
treesforest1 小时前
AI安全系统如何识别异常访问?IP风险识别正在成为关键能力
网络·人工智能·tcp/ip·安全·web安全
harykali1 小时前
Hello-ROCm:Gemma4微调 #Datawhale #AMDev
人工智能·llm
weiwin1231 小时前
MAF 入门(5):多 Agent 编排全解
人工智能·agent
用户5191495848451 小时前
Flowise预认证任意文件上传漏洞分析(CVE-2025-26319)
人工智能·aigc
shushangyun_1 小时前
2026年快消品B2B系统推荐:支持终端门店订货、促销政策自动化的工具?
java·运维·网络·数据库·人工智能·spring·自动化