FlashLightNet：实时检测与分类静态和闪烁交通灯状态的端到端深度学习框架

在自动驾驶和智能交通系统的发展进程中，交通灯的准确检测与状态分类是保障车辆安全导航和实时交通管理的核心技术之一。现有方案大多聚焦于静态交通灯（红、黄、绿）的识别，却忽视了闪烁交通灯（闪红、闪黄）这一关键场景，而这类闪烁信号在警示、紧急场景中起着重要作用。同时，传统方法在复杂光照、遮挡、环境噪声等实际路况下的鲁棒性不足，且难以满足实时性要求。

原文链接：FlashLightNet: An End-to-End Deep Learning Framework for Real-Time Detection and Classification of Static and Flashing Traffic Light States

代码链接：未公开

沐小含持续分享前沿算法论文，欢迎关注...

一、研究背景与意义

1.1 自动驾驶的核心技术瓶颈

自动驾驶车辆（AV）要实现安全可靠的城市道路导航，必须实时、准确地解读道路标志和交通灯信号。其中，交通灯识别不仅需要区分传统的红、黄、绿静态状态，还需处理闪红（表示强制停车观察）、闪黄（表示减速警示）等闪烁状态 ------ 这类信号常出现在交通流量较小的路口、故障路口或紧急车辆优先场景，对驾驶决策的安全性至关重要。

然而，闪烁交通灯的间歇性发光特性带来了独特挑战：

传统逐帧分类方法缺乏时间维度感知，难以区分闪烁信号与短暂视觉干扰（如光斑、阴影）；
现有数据集和模型大多忽略闪烁状态，导致相关场景的泛化能力不足；
复杂环境下（如强光、雨雾、遮挡、相机角度变化），闪烁信号的检测精度进一步下降。

1.2 现实需求与研究缺口

从交通安全数据来看，美国约三分之一的路口致命事故发生在信号控制路口，而闪烁信号在减少事故率方面已被证实有效（如北卡罗来纳州和南卡罗来纳州的数据显示，闪烁信号灯可使角度碰撞事故减少 13.3%，致命事故减少 10.2%）。但另一方面，驾驶员对闪烁信号的理解存在显著不足 ------ 仅 52% 的受访者能正确解读闪烁黄箭头信号的含义，这凸显了自动驾驶系统精准识别闪烁信号的必要性。

此外，尽管车辆与基础设施（V2I）通信是未来自动驾驶的理想方案，但现有交通灯基础设施的升级改造成本高、周期长，过渡期内自动驾驶车辆仍需依赖视觉感知技术解读交通灯状态。即使在 V2I 普及后，视觉感知也可作为通信故障、网络攻击时的备用方案，保障系统鲁棒性。

因此，开发一种能够同时处理静态和闪烁交通灯、满足实时性要求且在复杂环境下表现稳定的检测与分类框架，具有重要的理论意义和工程价值。

二、相关工作综述

论文对交通灯检测与分类的相关研究进行了系统梳理，明确了现有方法的局限性，为 FlashLightNet 的设计提供了依据。

2.1 交通灯检测的传统方法

传统交通灯检测方法可分为基于模型 和基于学习两类：

基于模型的方法：依赖手工设计的规则，结合颜色、形状、亮度等特征。例如，通过颜色密度阈值分割红、黄、绿区域，利用霍夫变换定位圆形灯体，或通过 BLOB 分析提取候选区域。这类方法在受控环境下表现尚可，但对光照变化、阴影、传感器差异极为敏感，泛化能力差。
基于学习的方法：通过提取判别性特征（如 HOG、LBP、Gabor 滤波器）训练分类器（如 SVM、Adaboost）。早期采用级联 Haar 分类器，后期逐渐结合多特征融合（颜色 + 形状 + 上下文）提升精度，但仍需依赖人工设计特征，且对训练数据集的多样性要求较高。

2.2 深度学习 - based 交通灯检测与分类

近年来，深度学习模型（YOLO、Faster R-CNN、SSD 等）在检测精度和实时性上实现了突破：

Ennahhal 等人使用 YOLOv3 在 Bosch 和 LISA 数据集上提升了识别速度和精度；
YOLOv4 的扩展版本通过高斯边界框不确定性模型融合深浅层特征，优化小目标检测；
部分框架结合多相机和 GPS 数据，缩小感兴趣区域（ROI），提升检测效率。

但现有深度学习方法仍存在明显缺口：

大多仅支持静态交通灯分类，忽略闪烁状态；
逐帧处理缺乏时间上下文，无法建模闪烁信号的时序特征；
分类任务局限于红、黄、绿三分类，难以应对箭头灯、倒计时灯等复杂信号类型。

2.3 时序建模技术在交通领域的应用

闪烁交通灯的识别本质是时序序列分类问题，需通过时序建模捕捉 "亮 - 灭" 交替的模式。相关时序建模技术包括：

LSTM：通过门控机制（输入门、遗忘门、输出门）缓解梯度消失问题，擅长捕捉长时依赖，已在交通流预测、驾驶行为分析等任务中验证有效性；
TCN（时序卷积网络）：基于膨胀卷积，训练速度快，但在稀疏事件序列（如闪烁灯）中的表现尚未充分验证；
贝叶斯网络 / 马尔可夫模型：基于概率建模时序转移，但假设固定时间间隔，在动态场景中计算成本高；
模糊逻辑：处理不确定性决策，但在复杂时序模式识别中精度有限。

综合对比后，论文选择 LSTM 作为时序分类模块，因其在处理不规则闪烁序列、捕捉长时依赖方面的优势，且 ResNet-LSTM 混合架构在跨领域（医疗、结构监测、环境感知）的泛化能力已得到验证。

2.4 现有研究与本文的核心差异

论文通过表格清晰对比了现有主流方法与 FlashLightNet 的差异，突出了本文的创新点：

可见，现有方法均未支持闪烁交通灯的识别，而 FlashLightNet 是首个在统一框架中同时处理静态和闪烁状态、且满足实时性要求的方案。

三、核心方法：FlashLightNet 框架设计

FlashLightNet 是一种端到端的深度学习框架，集成了目标检测、特征提取和时序分类三大模块，实现从交通灯检测到状态分类的一体化流程。其核心架构如图 3 所示：

3.1 框架整体流程

数据预处理：对真实和模拟视频数据进行帧提取、分类、标注、尺寸标准化和时序序列构建；
交通灯检测：使用 YOLOv10n 定位帧中的交通灯，输出精确边界框（ROI）；
空间特征提取：通过 ResNet-18 对 ROI 区域进行特征提取，生成高维空间特征向量；
时序分类：将序列帧的特征向量输入 LSTM 网络，捕捉 "亮 - 灭" 时序模式，分类为红、绿、黄、闪红、闪黄五种状态。

3.2 数据集构建（关键支撑）

为解决现有数据集缺乏闪烁交通灯样本的问题，论文构建了包含真实数据 和模拟数据的综合数据集，确保模型的泛化能力。

3.2.1 数据集构成

3.2.2 数据预处理关键步骤

帧标注：使用 Roboflow 自动标注 YOLOv10 格式的边界框（x_center、y_center、width、height），并手动校验标注准确性；
尺寸标准化：所有图像 resize 至 680×680 像素，平衡计算效率与数据完整性；
时序序列构建：静态灯序列由连续 "亮" 帧组成，闪烁灯序列由 "亮 - 灭" 交替帧组成（均标注为对应闪烁类别），确保 LSTM 能捕捉时序依赖。