基于多尺度深度卷积增强的YOLO11公共区域发传单违规行为检测系统(2026年 力作)

摘要:针对公共区域发传单违规行为检测中小目标易漏检和复杂场景下检测精度不足的问题,提出了一种基于改进 YOLOv11 的智能检测方法。该方法通过引入 P2 高分辨率特征层增强小目标感知能力,并结合多尺度深度卷积注意力模块(MSDA)与高效通道注意力机制(ECA),提升特征表达与关键特征响应能力。实验结果表明,改进模型在自建数据集上取得 99.5% 的 mAP@50 和 95.6% 的 mAP@50:0.95,较基线模型提升 1.1 个百分点,在保证实时性的同时显著提高了检测精度。

项目简介

本章节简要介绍发传单违规行为检测系统的基本情况,包括系统概述、应用场景和技术栈,帮助您快速了解项目的核心定位。

系统概述

发传单违规行为检测系统是一套基于深度学习的智能视觉检测解决方案。系统采用改进的YOLOv11算法,并创新性地提出了MSDA-ECA(Multi-Scale Depthwise Convolution + ECA Attention)多尺度深度卷积增强模块,实现对公共区域发传单行为的高精度、实时化检测。

在城市公共区域管理中,发传单行为长期存在监管难题:人工巡查效率低、覆盖范围有限、成本高、响应滞后且取证困难。随着计算机视觉和深度学习技术的发展,本系统通过部署摄像头,能够实时识别违规行为,自动记录证据并及时通知管理人员,大幅提升管理效率和执法能力。

系统以YOLOv11为基础框架,结合MSDA-ECA增强模块,技术路线包括多尺度特征提取、数据构建(2410张训练图像,688张验证图像)、模型训练(SGD优化器,150轮迭代)、系统开发(PyQt5图形化界面,集成图像、视频、实时检测、数据统计及算法对比功能)以及性能优化验证。技术栈涵盖PyTorch、CUDA加速、Python、OpenCV、NumPy、Matplotlib,以及SQLite和Pandas进行数据管理,支持跨平台开发与部署。

系统架构

本系统采用经典的四层架构设计:

图1 发传单违规行为检测系统四层架构图

核心亮点

本章节将快速概览系统的核心技术价值和创新亮点,帮助您快递了解项目的独特优势。无论您是技术人员、研究者还是决策者,都能从中快速获取关键信息,判断本系统是否符合您的需求。

算法创新点

本系统的核心创新在于提出了MSDA-ECA(Multi-Scale Depthwise Convolution + ECA Attention)多尺度深度卷积增强模块,相比传统卷积具有显著优势,可有效提升公共区域发传单行为的检测精度和小目标识别能力。

图2 MSDA-ECA模块三大技术创新点展示图

性能突破

通过完整的对比实验,MSDA-ECA增强模型在多项关键指标上取得了显著提升。

图3 MSDA-ECA增强模型与基线模型性能对比图

系统特色

本系统不仅算法先进,更注重实用性和易用性,提供完整的功能链和友好的用户体验。

图3 系统特色

技术价值

本项目的技术创新不仅具有学术意义,更具有广泛的应用价值和教育价值。

图4 技术价值

本系统通过MSDA-ECA算法创新,在保持99.5%高精度的同时,将mAP@0.5:0.95提升至95.60%,收敛速度提升13%,为公共区域发传单违规行为检测提供了高效、准确、易用的解决方案。

核心技术

本文通过在 YOLOv11 的高分辨率 P2 特征层引入 MSDA-ECA 增强模块,有效提升了小目标与密集场景的检测精度。该模块的核心创新包括多尺度深度卷积、自适应权重融合与高效通道注意力三大机制,在保持计算开销可控的前提下,实现了检测性能的显著提升。

MSDA-ECA算法详解

图5 MSDA-ECA模块结构与核心创新点

为提升 YOLOv11 的检测性能,本文提出了一种多尺度膨胀注意力增强模块 MSDA-ECA(Multi-Scale Dilated Attention with Efficient Channel Attention),并将其引入检测网络的 P2 特征层。由于 P2 层具有分辨率高但语义信息相对不足的特点,直接用于检测时对复杂背景和上下文建模能力有限。MSDA-ECA 通过融合多尺度感受野、通道注意力与残差调控机制,在保持计算开销可控的前提下,有效增强了特征的判别性与鲁棒性。

在特征建模方面,MSDA 模块采用双分支深度可分离膨胀卷积结构,通过不同膨胀率(dilation=1 和 dilation=2)构建多尺度感受野。其中,标准深度卷积分支侧重于局部细节与边界信息的建模,而膨胀卷积分支在不显著增加参数量的情况下将有效感受野扩大至 5×5,用于捕捉更大范围的上下文信息。为避免人工设定多尺度融合比例带来的局限性,模块引入可学习权重并通过 Softmax 归一化实现自适应融合,使网络能够根据数据分布动态调整不同尺度特征的贡献。在多尺度特征融合之后,MSDA-ECA 进一步引入高效通道注意力(ECA)机制,通过轻量级的一维卷积实现局部跨通道交互,在显著降低参数量(相比 SE 模块减少约 5 倍)与计算复杂度的同时,仍能够有效突出与目标检测相关的关键通道特征。

为提升训练稳定性与模型泛化能力,模块在残差路径中结合 DropPath 正则化与每通道 LayerScale 机制。DropPath 通过随机丢弃整个残差分支强制网络学习多条信息传递路径,相比传统 Dropout 对检测任务的定位精度更加友好。LayerScale 则通过引入每通道可学习缩放因子,使网络在训练初期保持保守更新,并在后期逐步增强有效特征的残差贡献。实验结果表明,该设计在不破坏原有特征流结构的前提下,使 mAP50-95 从 0.945 提升至 0.956,有效提升了整体检测性能。

技术优势分析

MSDA-ECA 算法在多方面展现出显著的技术优势。在计算效率方面,算法采用轻量级设计和深度可分离卷积策略,有效控制了参数量和计算复杂度,ECA 模块在参数量减少约 5 倍的情况下保持了性能几乎无损。在特征表达方面,通过多尺度自适应融合和可学习权重机制,算法能够在不同目标尺寸下自适应调整感受野,提升了检测精度和边界定位能力。在训练稳定性方面,DropPath 和 LayerScale 的引入有助于提升模型泛化能力和训练稳定性。此外,MSDA-ECA 在跨场景、跨尺度泛化以及与数据增强的协同方面均表现优异。实验结果表明,该算法使 mAP50-95 从 0.945 提升至 0.956,在参数效率、计算效率、检测精度、训练稳定性及泛化能力等多维度均明显优于传统方法。

性能表现

为全面评估 MSDA-ECA 增强模块的有效性,本章通过对比实验验证了算法在检测精度、计算效率和训练稳定性等方面的显著优势。

双模型对比分析

为全面评估 MSDA-ECA 增强模块的有效性,本文在相同的数据集和训练配置下,对比了 YOLOv11 基准模型与 YOLOv11+MSDA-ECA 模型的性能表现。两个模型均在公共区域违规发传单检测数据集上训练 150 个 epoch,采用相同的优化器(SGD)、学习率策略和数据增强方法,确保对比的公平性。

训练配置:实验采用输入分辨率 640×640,批量大小为 8,初始学习率为 0.01,使用线性衰减学习率调度策略,数据增强技术 Mosaic 等策略,并在最后 30 个 epoch 关闭 Mosaic 增强以精修检测框。所有实验均在单张 GPU 上完成,确保训练环境的一致性。训练过程中,两个模型使用相同的损失函数权重配置,包括边界框损失、分类损失和分布焦点损失,以保证实验的可比性。

性能对比:表1 展示了两个模型在第 150 个 epoch 的性能对比。结果表明,引入 MSDA-ECA 模块后,mAP50-95 从 0.94503 提升至 0.95603,相对提升 1.16%。这一提升在目标检测任务中具有重要意义,特别是在高精度要求的应用场景中。mAP50 保持在 0.995 的高水平,表明模型在中等 IoU 阈值下的检测能力已接近饱和。Precision 从 0.99993 略微下降至 0.99926,Recall 从 0.99666 略微下降至 0.99637,但这些微小变化(均小于 0.1%)在统计学上不显著,且在实际应用中可忽略不计。值得注意的是,mAP50-95 的提升主要来自于高 IoU 阈值(0.75-0.95)下的性能改善,表明 MSDA-ECA 有效提升了边界框的定位精度。

从计算效率角度来看,MSDA-ECA 模块引入的额外参数量仅为 20K,相对于基准模型的 2.59M 参数,增加比例仅为 0.77%。计算量方面,模块增加了 0.3 GFLOPs,相对增加 4.69%。这表明 MSDA-ECA 在保持轻量级设计的同时,实现了性能的显著提升,展现出优异的参数效率和计算效率。

表1 YOLOv11与YOLOv11+MSDA-ECA性能对比

训练收敛分析。 图1 展示了两个模型在训练过程中的 mAP50-95 变化曲线。从曲线可以观察到,MSDA-ECA 模型在训练早期(epoch 10-30)就展现出明显优势,收敛速度更快。在训练初期的快速上升阶段,两个模型的性能都迅速提升,但 MSDA-ECA 模型的上升速度略快于基准模型。进入训练中期(epoch 30-100)的稳定收敛阶段后,两个模型的性能差距逐渐稳定在 1-2 个百分点,MSDA-ECA 模型始终保持领先。训练后期(epoch 100-150)进入精修阶段,MSDA-ECA 模型的性能持续提升且曲线平滑,没有出现明显的波动或过拟合现象,表明模型具有良好的训练稳定性和泛化能力。

从收敛特性来看,MSDA-ECA 模型在 epoch 70 左右就已经接近最终性能的 95%,而基准模型则需要更长的训练时间才能达到相似的收敛程度。这表明 MSDA-ECA 模块不仅提升了最终性能,还加速了模型的收敛过程,这对于实际应用中的模型训练具有重要意义。此外,两个模型在训练后期都表现出平稳的性能提升,没有出现性能下降或剧烈波动,说明训练策略(如学习率调度、数据增强等)设置合理,模型训练过程稳定可靠。

图6 训练过程 mAP50-95 对比曲线

综合来看,双模型对比实验充分验证了 MSDA-ECA 模块的有效性。该模块在保持极低的参数和计算开销的前提下,显著提升了检测精度,特别是在高 IoU 阈值下的边界定位精度。同时,模块的引入并未影响模型的训练稳定性,反而加速了收敛过程,展现出良好的工程实用价值。

关键指标(注:真实数据)

检测精度指标: mAP50-95 是目标检测任务中最重要的综合评价指标,衡量模型在不同 IoU 阈值(0.5 到 0.95,步长 0.05)下的平均精度。MSDA-ECA 模型在该指标上从 0.94503 提升至 0.95603,提升 1.16%,表明模型不仅能准确识别目标,还能精确定位边界。mAP50 保持在 0.995 的高水平,说明模型在宽松 IoU 阈值下已达到接近完美的性能。

精确率与召回率: MSDA-ECA 模型的 Precision 为 0.99926,Recall 为 0.99637,表明误检率和漏检率均极低。相比基准模型(Precision=0.99993, Recall=0.99666),这两个指标分别下降 0.067% 和 0.029%,这些微小变化在统计学上不显著。这种微小权衡换来了 mAP50-95 的显著提升,表明模型在追求更高定位精度的同时,并未牺牲分类准确性。

计算效率指标: MSDA-ECA 模块采用轻量级设计,通过深度可分离卷积和高效通道注意力机制,在保持低计算开销的前提下实现了性能提升。模块引入的额外参数主要来自于双分支膨胀卷积、可学习权重参数、ECA 的一维卷积以及 LayerScale 的每通道缩放因子,整体参数增加量控制在较低水平。

损失函数分析: 表2展示了两个模型在验证集上的损失函数值。MSDA-ECA 模型的 Box Loss 从 0.326 降至 0.310,下降 4.79%,表明边界框回归更加精确。这一显著降低直接反映了 MSDA-ECA 模块在边界定位方面的核心优势。Classification Loss 从 0.178 略微上升至 0.180,增加 1.16%,但不影响整体性能,表明分类能力保持稳定。DFL Loss 从 0.782 上升至 0.839,增加 7.31%,这一上升与 mAP50-95 的提升相呼应,表明模型在学习更精确的边界表示。

表2 验证集损失函数对比

综合来看,MSDA-ECA 模块在检测精度和损失函数等关键指标上都展现出优异性能。mAP50-95 的提升和 Box Loss 的显著降低充分证明了模块在边界定位精度上的核心优势,而 Precision 和 Recall 的稳定表现则表明模块在提升定位精度的同时保持了分类准确性。

性能优势总结

实验结果表明,MSDA-ECA 模块在仅增加少量参数和计算量的情况下,有效提升了模型的整体检测性能。多尺度特征融合与通道注意力机制的引入改善了目标定位精度,同时增强了模型训练过程的稳定性。在实际违规发传单检测任务中,模型在保持实时性的同时取得了较高的检测精度和召回率,验证了其良好的实用性和应用价值。

系统功能

本系统提供图像、视频、实时摄像头三种检测模式,集成智能识别、实时告警、数据统计、记录管理和可视化分析功能,实现公共区域违规发传单行为的全流程智能监测与管理。

功能概述

本系统基于 MSDA-ECA 增强的 YOLOv11 模型,实现了公共区域违规发传单行为的智能检测与管理。系统采用现代化的图形用户界面(GUI),提供图像检测、视频检测、实时摄像头检测三种检测模式,并集成了数据统计分析、违规记录管理、智能告警等功能,为城市管理部门提供高效、便捷的技术支撑。

单张检测功能

单张检测模式支持对静态图像进行违规发传单行为检测,用户点击界面左侧的"单张检测"按钮并选择图像文件后,系统自动加载图像并进行目标检测,在中央显示区域展示标注后的图像,同时显示目标类别(Person/Leaflet)和置信度,右侧面板实时更新检测到的人员和传单数量统计信息,检测结果自动保存到 save_data 目录作为执法证据。

视频检测功能

视频检测模式支持对录制的视频文件(MP4、AVI、MOV 格式)进行逐帧检测,用户点击"视频检测"按钮选择视频文件后,系统自动读取视频流并对每一帧进行实时目标检测,在界面中显示标注后的视频画面、当前检测帧率(FPS)和累计统计信息,采用 DetectWorker 多线程异步处理技术避免界面卡顿,支持可选保存检测后的视频文件(带标注),并记录视频中出现违规行为的时间点和次数。

实时检测功能

实时检测模式支持连接本地摄像头或网络摄像头进行实时违规发传单行为检测,系统启动时自动扫描并检测可用摄像头设备(索引 0-9),用户点击"实时检测"按钮并选择指定摄像头后,系系统以实时速度进行视频流检测(GPU可达45 FPS,CPU约8 FPS),当检测到违规行为时自动触发告警机制(LED 状态灯变红色闪烁、播放声音告警、自动截图保存证据),并通过 10 秒告警防抖间隔避免频繁告警,实时更新检测统计信息和告警次数。

数据统计与分析

数据分析模块提供检测数据的可视化展示和统计分析功能,用户点击"数据分析"按钮打开独立的分析窗口,可查看今日检测次数、今日告警次数、累计检测数、违规次数、人员检测数、传单检测数等关键统计指标,通过条形图、统计卡片等形式直观展示数据分布,支持查询历史检测记录(存储在 SQLite 数据库 data/app.db)、导出 CSV 格式报告、清空当前用户记录等操作,实现检测数据的持久化存储和全面分析。

执法管理功能

执法管理模块集成了处罚通知自动生成和发送功能,检测到违规行为后,系统自动加载预设的处罚通知模板并填充违规时间、地点、证据图像等信息,用户可点击"导出处罚单"按钮生成处罚通知文件,或点击"发送邮件"按钮通过 SMTP 邮件服务(配置文件位于 configs/smtp_config.json)将处罚通知发送给相关部门,检测图像自动关联作为执法证据进行管理,实现从检测到执法的全流程自动化处理。

系统架构

本系统采用 Python 3.12 开发,基于 Ultralytics YOLOv11 深度学习框架实现目标检测,使用 PySide6 (Qt for Python) 构建图形用户界面,通过 OpenCV 进行图像处理,并使用 SQLite 数据库实现数据持久化存储。

图7 发传单违规行为检测系统总流程图

系统优势

本系统基于改进的YOLOv11深度学习模型,实现了公共区域违规发传单行为的智能检测与管理。系统采用MSDA-ECA增强的YOLOv11n检测网络,在测试集上达到mAP50-95 = 0.956的检测精度,模型参数量约2.6M,适合边缘设备部署。支持实时视频流处理,内置FPS监控和推理时间统计功能,可根据硬件配置实现毫秒级响应。提供单张图片、视频文件、实时摄像头三种检测模式,满足不同应用场景需求。

运行展示

系统界面分为左侧功能按钮和参数设置、中央检测画面显示、右侧统计信息和执法管理三个区域,提供单张/视频/实时检测、数据分析、告警提示、处罚通知等完整功能,界面简洁直观、操作便捷。

检测效果展示

登录界面:

图8 登录注册主界面

系统登录注册主界面,提供用户身份验证入口,包含登录和注册功能切换选项。

系统运行模块:

图9 系统运行主界面(GPU推理配置)

系统主界面(GPU模式),显示系统运行在GPU加速模式下,界面包含检测模式选择、模型选择、参数设置等功能区域,状态栏显示GPU信息。

图10 系统运行主界面(CPU推理配置)

系统主界面(CPU模式),显示系统运行在CPU模式下,界面布局与GPU模式相同,状态栏显示CPU运行状态。

图11 单张检测:违规发传单

单张图片检测结果界面,成功检测到违规发传单行为,图像中标注出检测框和置信度,右侧显示检测详情和违规信息。

图12 单张检测:违规行为待确认

单张图片检测结果界面,检测到疑似违规行为但置信度较低,需要人工确认,界面提供确认和忽略按钮。

图13 视频检测:违规发传单

视频检测界面,实时处理视频流并检测到违规发传单行为,显示当前帧的检测结果、视频进度、检测统计等信息。

图14 视频检测:违规行为待确认单

视频检测界面,检测到疑似违规行为待确认,暂停播放并提示用户进行人工审核。

图15 实时检测:违规发传单

实时摄像头检测界面,成功检测到违规发传单行为,实时标注并记录违规信息,可触发报警机制。

图16 实时检测:违规行为待确认单

实时摄像头检测界面,从摄像头实时捕获画面并检测到疑似违规行为,等待确认,显示实时画面和检测信息。

图17 邮件报警

邮件报警功能界面,当检测到违规行为时自动发送邮件通知,界面显示邮件发送配置、收件人设置、邮件内容预览等。

图18 导出处罚通知单

处罚通知单导出界面,根据检测到的违规行为生成处罚通知单,支持导出为PDF格式,包含违规时间、地点、证据图片等信息。

图19 邮件发送处罚通知单

系统自动填充违规信息,通过SMTP服务发送处罚通知

图20 处罚通知单发送完成

邮件发送成功确认,记录发送时间和收件人信息

图21 退出系统

系统退出确认对话框,提示用户是否确认退出系统,防止误操作导致数据丢失。

数据分析模块:

图22 数据分析

数据分析主界面,展示违规行为检测的统计数据,包括检测次数、违规次数、时间分布等可视化图表,支持数据筛选和导出功能。

图23 数据分析:清空记录

数据清空功能界面,提供清空历史检测记录的操作,包含确认对话框以防止误操作。

算法对比模块:

图24 算法对比主界面

算法对比主界面,展示多种YOLO算法的性能对比,包括算法选择、指标展示等功能模块。

图25 算法对比:指标对比

算法性能指标对比图表,展示不同算法在Precision、Recall、mAP等关键指标上的对比结果,以柱状图或表格形式呈现。

图26 算法对比:mAP对比

mAP(平均精度均值)对比曲线图,展示不同算法在训练过程中mAP指标的变化趋势,用于评估算法检测精度。

图27 算法对比:Loss曲线

训练损失曲线对比图,展示不同算法在训练过程中损失函数的收敛情况,包括总损失、分类损失、定位损失等。

图28 算法对比:PR

Precision-Recall曲线图,展示不同算法在不同置信度阈值下的精确率和召回率关系,用于评估算法的综合性能。

图29 算法对比:导出图表

图表导出功能界面,支持将对比图表导出为图片格式(PNG、JPG等),便于报告撰写和结果展示。

图30 算法对比:导出报告

报告导出功能界面,支持将算法对比结果导出为完整的分析报告(PDF、Word等格式),包含所有图表和数据分析。

数据集与训练

本章介绍了公共区域发传单违规行为检测数据集的构建过程、模型训练流程与配置,以及改进后的YOLOv11-MSDA-ECA模型在验证集上达到99.5%的mAP@0.5和95.6%的mAP@0.5:0.95的优异性能。

数据集构建

本研究使用的是公共区域违规发传单检测数据集,该数据集专门针对城市公共场所中人员违规发放传单的行为进行标注。数据集包含多种场景下的图像,涵盖室内外不同光照条件、人员密度和拍摄角度,具有较强的场景多样性和实用价值。

图31 数据集划分及类别信息统计示意图

数据集特点:

场景多样性

数据集涵盖了多种公共场所场景,包括商业街、地铁站、公园、广场等典型的违规发传单高发区域。图像采集时间跨越不同时段,包含白天、傍晚和夜间等不同光照条件,确保模型具有良好的泛化能力。

目标尺度多样性

数据集中的目标尺度变化较大,既包含近距离拍摄的大尺寸目标(人员全身、手持传单特写),也包含远距离拍摄的小尺寸目标(人群中的个体、远处的传单)。这种多尺度特性对检测算法的鲁棒性提出了较高要求。

标注质量

数据集采用 YOLO 格式标注,每个目标均标注了类别和边界框坐标。标注过程经过多轮人工审核,确保标注的准确性和一致性。训练日志显示,数据集中无损坏图像(0 corrupt),标注质量可靠。

数据集划分:

数据集按照约 70:20:10 的比例划分为训练集、验证集和测试集:

表3 数据集划分及用途说明

训练集用于模型的参数学习和特征提取能力训练。验证集用于训练过程中的性能监控和超参数调优,帮助选择最优模型。测试集用于最终的性能评估,确保模型在未见过的数据上具有良好的泛化能力。

图32 数据集在训练、验证和测试集上的分布

数据预处理:

图像尺寸归一化

所有输入图像统一调整为 640×640 分辨率,保持长宽比并进行填充(letterbox),确保目标不发生形变。

数据增强策略:

训练过程中采用多种数据增强方法提升模型鲁棒性

图33 数据集图像增强方法

Mosaic 关闭策略: 在训练的最后 30 个 epoch 关闭 Mosaic 增强(close_mosaic=30),使模型在原始图像分布上精修检测框,提升边界定位精度。

数据集质量保证:

为了确保实验数据的可靠性和有效性,本研究的数据集经过严格的质量控制。所有图像均无损坏或无效背景,保证了数据的完整性。标注工作经过多轮人工审核,确保边界框定位精确,类别标注一致且符合定义标准。这些措施有效提升了数据集的质量,为模型训练和性能评估提供了可靠保障。

训练流程

模型训练采用端到端的方式,首先加载训练集和验证集进行数据预处理,然后加载YOLOv11预训练权重并集成MSDA-ECA增强模块进行模型初始化,接着使用SGD优化器进行150轮迭代训练,每轮训练后在验证集上评估性能指标,系统自动保存验证集上性能最佳的模型权重,最终输出完整的性能指标和训练曲线。

图34 发传单违规行为检测模型训练流程

流程图展示了以下关键步骤:

-- 开始训练 → 数据准备(训练集2410张,验证集688张)

-- 模型初始化 → YOLOv11 + MSDA-ECA,加载预训练权重

-- 模型训练 → 150 Epochs,SGD优化器,数据增强

-- 模型验证 → 计算性能指标(mAP, Precision, Recall)

-- 判断是否最佳模型 → 是:保存best.pt;否:继续训练

-- 训练完成 → 输出最终结果(mAP@0.5: 99.5%, mAP@0.5:0.95: 95.6%)

训练配置

硬件环境:

软件环境

训练超参数

数据增强策略

为提高模型泛化能力,训练过程中采用以下数据增强方法:Mosaic增强将4张图像拼接成一张以增加小目标检测能力;随机翻转以50%的概率对图像进行水平翻转;随机缩放在0.5-1.5倍范围内调整图像尺寸;色彩抖动在HSV色彩空间进行随机调整,其中色调(Hue)调整范围为±0.015、饱和度(Saturation)为±0.7、明度(Value)为±0.4;随机平移在±10%范围内对图像进行位置偏移。

学习率调度策略

学习率调度策略采用线性衰减方式,前3个epoch进行warmup预热,学习率从0线性增长到初始学习率0.01,之后按线性方式从0.01逐步衰减到最终学习率0.0001。

训练结果

性能指标:

经过150轮训练,改进后的 YOLOv11-MSDA-ECA 模型在验证集上取得了优异的性能:

训练曲线分析:

下图展示了模型在150轮训练过程中的完整性能变化,包括损失函数曲线和精度指标曲线:

图35 训练曲线分析

图中展示了10个关键指标的训练过程:训练损失(box/cls/dfl)、验证损失(box/cls/dfl)、精确率、召回率、mAP@50和mAP@50-95

(1)损失函数曲线

从训练曲线图可以看出,训练过程中损失函数呈现稳定下降趋势:训练集边界框损失(train/box_loss)从初始的2.8快速下降,在第50轮后趋于稳定,最终收敛至约0.4;训练集分类损失(train/cls_loss)从初始的2.8快速下降至0.2左右,表明分类准确率持续提高;训练集DFL损失(train/dfl_loss)从3.4下降至约0.85,分布焦点损失稳步降低;验证集损失方面,验证集的box_loss、cls_loss和dfl_loss均呈现与训练集相似的下降趋势,且曲线平滑,表明模型泛化能力良好,无明显过拟合。

(2)精度指标曲线

Precision曲线从初始的约84%快速上升,在第20轮达到98%以上,最终稳定在99.9%以上的高水平;Recall曲线从初始的约81%稳步提升,在第20轮达到98%以上,最终达到99.6%以上;mAP@50曲线从初始的约88%快速上升,在第20轮达到98%以上,最终稳定在99.5%;mAP@50-95曲线从初始的约43%持续上升,在整个训练过程中保持稳定增长,最终达到95.6%,表明模型在严格IoU阈值下表现优异。

(3)Precision-Recall 曲线

图36 Precision-Recall 曲线

展示模型在不同置信度阈值下的精确率和召回率关系,all classes mAP@0.5达到0.995

(4)混淆矩阵(归一化)

图37 归一化混淆矩阵

归一化混淆矩阵展示模型的分类准确性

最佳模型选择

训练过程中,系统自动保存验证集上性能最佳的模型,最佳模型出现在第150轮,保存路径为runs/train/yolo11/weights/best.pt,选择标准为验证集mAP@50:0.95指标最高。

与基线模型对比

原始 YOLOv11 模型相比,改进后的模型性能提升显著:

训练稳定性分析

从训练稳定性来看,模型在前50轮快速收敛,后100轮进行精细调优;训练集和验证集损失曲线走势一致,无明显过拟合现象;损失曲线平滑无剧烈波动,表明训练过程稳定;模型在第150轮达到最佳性能,训练过程稳定收敛。

项目资源

我们提供项目的完整技术资源,包括源代码、训练脚本、配置文件、数据集和模型权重等全部内容。代码采用模块化设计,结构清晰,注释完善,支持完全复现论文中的所有实验结果。项目提供详细的文件清单和技术架构说明(网页已经提供),帮助用户快速理解项目结构,便于二次开发和功能扩展。所有资源均已开源,遵循AGPL-3.0协议,用户可自由使用、修改和分发。

关于项目

本项目基于YOLOv11目标检测算法,通过引入多尺度深度卷积注意力机制(MSDA)和高效通道注意力机制(ECA),实现了对公共区域发传单违规行为的高精度智能检测,在验证集上达到99.5%的mAP@50和95.6%的mAP@50:0.95,为城市智能管理提供了有效的技术支持。

项目背景

随着城市化进程加快,公共场所发传单现象日益普遍,给城市管理带来诸多挑战。传统的人工巡查方式效率低下、成本高昂,难以实现全天候、全覆盖的监管。近年来,深度学习技术在目标检测领域取得突破性进展,为解决这一问题提供了新思路。本项目立足于实际应用需求,针对公共场所复杂场景下的发传单行为检测难题,提出了基于改进YOLOv11的智能检测方案,旨在通过技术手段提升城市管理的智能化水平,降低管理成本,维护公共秩序。

作者信息

-- 作者:Bob(张家梁) 原创

开源协议

本项目采用AGPL-3.0开源协议,允许个人和组织自由使用、修改和分发代码,但基于本项目的衍生作品必须同样开源,且用于提供网络服务时需向用户提供完整源代码。本项目仅供学习研究使用,作者不对使用本项目产生的任何后果承担责任,使用者应遵守当地法律法规,合理合法使用本项目。如本项目对您的研究或工作有所帮助,欢迎引用并注明出处。

相关推荐
冬奇Lab3 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab3 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP7 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年7 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼7 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS8 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区9 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈9 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang9 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx
shengjk111 小时前
NanoClaw 深度剖析:一个"AI 原生"架构的个人助手是如何运转的?
人工智能