煤矿井下辅助运输电机车障碍物感知的多模态融合方法

------论文《Fusion of multimodal information for visual perception of obstacles in underground electric locomotives》阅读笔记

低照度、粉尘、狭窄空间------如果让自动驾驶系统下井挖煤,它会不会"当场宕机"?

这篇论文给出的答案是:别只看可见光,红外也得一起上。


📄 论文基本信息

本文针对地下煤矿电机车在极低照度环境下障碍物感知精度严重下降的问题,提出了一套**"先融合、再分割"**的完整感知方案。


🕳️ 研究背景:为什么地下矿井这么"难看"?

在井下煤矿中,自动驾驶电机车面临低照度情况,影响传统环境感知效果:

  • 💡 照度极低(最低可达 1 lx)

  • 🪨 背景与目标纹理高度相似

  • 👷 工人、碎石、杂物尺度差异巨大

  • 📷 单一可见光成像信噪比急剧下降

👉 结论很直接:单靠可见光图像,感知系统天生"近视"


🧠 整体思路:两步走策略

作者的整体方案非常清晰:

第一步:多模态图像融合(看得清)
第二步:语义分割(看得懂)

对应两大核心模型:

阶段 模型名称 作用
图像融合 EA-CDDFuse 融合 NIR + VI,增强细节与语义
语义分割 LI-UNet 基于融合图像精确分割障碍物

🖼️ 一、地下视觉的"混合现实":EA-CDDFuse 图像融合模型

1️⃣ 为什么要融合近红外(NIR)?

  • 可见光(VI)

    • 有颜色、有纹理

    • 但在低照度下直接"摆烂"

  • 近红外(NIR)

    • 没颜色

    • 轮廓清晰、语义稳定

👉 融合目标:
"既要纹理细节,又要结构语义"


2️⃣ EA-CDDFuse 做了哪些关键改进?

论文在 CDDFuse 基础上,引入了三大核心设计:

🔹 Attention Guided Fusion Module(AGFM)
  • 引导模型自动判断"该信谁"

  • 对不同模态特征分配权重

  • 强化关键区域(人、石头、杂物)

🔹 Efficient Depth-Aware Attention(EDAA)
  • 改造 Transformer 注意力机制

  • 深度可分离卷积 + 全局池化

  • 👉 算得更快,看得更准

🔹 EIFN 单阶段融合架构
  • 从"两阶段训练"变成"端到端融合"

  • 更利于工程部署


📌 模型整体结构示意


📊 融合效果到底怎么样?

作者用 EN / SD / SF / VIF 四大指标进行评估:

模型 EN SD SF VIF
DIDFuse 6.22 47.14 8.30 0.43
CDDFuse 5.39 28.70 7.90 1.02
EA-CDDFuse 6.72 48.64 9.05 1.16

📈 信息量最多、对比度最强、视觉保真度最高


🖼️ 视觉对比


🧩 二、看清之后,还得看懂:LI-UNet 语义分割模型

1️⃣ 为什么不用普通 UNet?

问题在于:
地下障碍物 ≠ 城市街景

  • 尺度差异极大

  • 边界模糊

  • 背景干扰严重

于是作者对 UNet 进行了三重强化


2️⃣ LI-UNet 的三大杀手锏

🔸 ResNet-50 编码器
  • 更强特征提取能力

  • 推理速度更快

🔸 CLFEM(跨层特征增强)
  • 深层语义指导浅层细节

  • 减少特征"走丢"

🔸 MFEM(多尺度特征提取)
  • 空洞卷积 + 通道注意力

  • 同时抓住工人(大)碎石(小)


📌 网络结构示意


📊 分割性能对比

模型 MIoU (%) mPA (%) PA (%)
UNet 83.53 91.28 97.45
DeepLabV3+ 79.83 84.47 96.82
LI-UNet 87.13 92.03 97.88

🎯 在低照度场景下全面领先


🖼️ 分割效果可视化


🚀 总结与思考

✅ 这篇论文做对了什么?

  • 物理成像原理 出发,而不是盲目堆模型

  • 融合模型 + 分割模型 协同设计

  • 数据集、消融实验、实时性评估非常完整

🤔 还能怎么改进?

  • 当前数据集规模仍偏小(1k 级)

  • 未引入 深度信息 / 激光雷达

  • 极端 1 lx 场景下仍存在误检


🧾 一句话总结

EA-CDDFuse + LI-UNet = 给地下电机车装上了一双"夜视 + 理解"的眼睛。

相关推荐
AndrewHZ21 小时前
【LLM技术全景】规模定律与模型演进:为什么模型越大越强?
人工智能·gpt·深度学习·语言模型·llm·openai·规模定律
手写码匠1 天前
从零实现 Prompt 工程引擎:结构化提示、自动优化与多轮自省体系
人工智能·深度学习·算法·aigc
哈伦20191 天前
第十二章 深度学习基础 案例:MLP实现银行单据手写数字识别
人工智能·深度学习·图像识别
lqqjuly1 天前
MLA — 多头潜在注意力深度解析
深度学习·神经网络·算法
Black蜡笔小新1 天前
企业AI算力工作站DLTM深度学习推理工作站零代码私有化重塑企业AI落地新模式
人工智能·深度学习
啦啦啦_99991 天前
4. Transformer_4_输出部分
人工智能·深度学习·transformer
DogDaoDao1 天前
【GitHub】VoxCPM2 实战全解析:原理、部署与效果对比
深度学习·大模型·github·音频·语音模型·tss·文本生成语音
不考研当牛马1 天前
Django 框架 深度学习
python·深度学习·django
春日见1 天前
决策规划控制面经汇总
人工智能·深度学习·算法·机器学习·自动驾驶
啦啦啦_99991 天前
4. Transformer_3_解码器部分
android·深度学习·transformer