【洞察微瑕】YOLO11+QWEN-VL实现墙体裂缝检测与文字报告生成

gloomyfish2026-04-26 10:03

2026年必然是多模态视觉算法应用爆发的一年

前言

建筑结构在长期服役过程中，受环境侵蚀、材料老化、荷载作用等因素影响，不可避免地产生裂缝等表观病害。裂缝的早期发现与精准评估是结构健康监测（Structural Health Monitoring, SHM）的关键环节，直接关系到工程结构的安全运营与预防性维护。传统的视觉检测依赖人工目视，不仅效率低、主观性强，且难以触及高危或难以到达的区域。

近年来，深度学习技术推动了裂缝检测的智能化发展。其中，YOLO（You Only Look Once）系列模型以其出色的实时性与精度平衡，在目标检测领域占据重要地位。最新一代YOLO11进一步优化了实例分割能力，能够以像素级精度勾勒裂缝形态。与此同时，以QWEN-VL为代表的多模态大语言模型展现出强大的视觉理解与语义推理能力，为检测结果的智能化审核与规范化报告生成提供了新范式

技术方案

本文提出一种融合YOLO11分割与QWEN-VL审核的两阶段墙体裂缝检测框架：第一阶段利用YOLO11实现裂缝的实时检测与实例分割；第二阶段调用QWEN-VL对分割结果进行语义审核、真伪鉴别、等级评定，并自动生成结构化维修建议报告。该框架兼顾了深度学习检测的高效率与大语言模型推理的高可解释性，为建筑巡检的智能化升级提供了可行方案。

YOLO11 墙体裂缝检测
千问格式化输出报告：

YOLO11 墙体裂缝检测

根据收集与标注好的墙体裂缝数据集，使用YOLO11-seg模型训练，训练命令行如下：

cpp 复制代码

yolo segment train data=crack-seg/crack-seg.yaml model=yolo11n-seg.yaml epochs=100 imgsz=640

导出onnx格式文件

cpp 复制代码

yolo export model=best.pt format=onnx

QWEN-VL 审核与报告生成

总结

随着多模态大模型推理成本的持续下降和边缘算力的提升，类似的双阶段"检测+审核"架构有望成为基础设施智能运维的新范式。