深度学习论文: ICPR 2026 Competition on Low-Resolution License Plate Recognition

深度学习论文: ICPR 2026 Competition on Low-Resolution License Plate Recognition

ICPR 2026 Competition on Low-Resolution License Plate Recognition

PDF: https://arxiv.org/abs/2604.22506

PyTorch代码: https://github.com/shanglianlm0525/CvPytorch

PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

自动车牌识别(ALPR)系统在交通执法、电子收费等场景中应用广泛。在标准成像条件下,车牌检测与识别性能已趋于饱和。然而,在真实监控环境中,由于摄像头距离远、硬件限制以及强压缩,车牌图像常常以低分辨率(Low-Resolution, LR)获取,字符模糊、失真,识别难度显著增加。尽管实际需求迫切,低分辨率车牌识别(LRLPR)仍是一个极具挑战且研究不足的问题,现有最先进方法在真实低质量图像上的识别率也仅为50-60%。

为了推动该领域发展,本文在ICPR 2026上组织了首届低分辨率车牌识别竞赛。竞赛基于LRLPR-26数据集,该数据集包含20,000个训练轨迹(每个轨迹含同一车牌的5张低分图和5张高分图)和3,000个测试轨迹(每个轨迹含5张低分图)。这是目前最大的真实低分与高分车牌配对数据集。

竞赛吸引了来自41个国家的269支队伍,最终99支队伍提交了有效结果。本文介绍了竞赛概况、数据集、评估协议、结果,并详细分析了前五名团队的方法。

2 竞赛详细说明

组织者利用 YOLOv11 进行车牌检测,并使用 BoT-SORT 进行跨帧跟踪。对于同一辆车,远处的帧被标记为 LR 样本,近处的帧则作为高分辨率(High-Resolution, HR)参考。最终的标注通过对 5 帧 HR 图像进行 OCR 识别并结合多数投票(Majority Voting)机制产生,确保了 Ground Truth 的准确性。

2.1 训练数据

  • 20,000个轨迹 ,每个轨迹包含:
    • 5张连续的低分辨率(LR)车牌图像
    • 5张连续的高分辨率(HR)车牌图像
  • 总计200,000张图像。
  • 数据分为两个场景:
    • 场景A(10,000轨迹):相对受控环境(白天、无雨)。
    • 场景B(10,000轨迹):更具挑战性(雨天、夜间、不同方向)。
  • 车牌布局:
    • 巴西样式:3字母 + 4数字
    • Mercosur样式:3字母 + 1数字 + 1字母 + 2数字

训练集提供了HR图像,鼓励参赛者探索超分辨率等增强策略。

2.2 测试数据

  • 3,000个轨迹,全部来自场景B,每个轨迹对应唯一车辆。
  • 每个轨迹仅包含5张LR图像(无HR图像,无标注)。
  • 布局分布:600轨迹巴西样式,2,400轨迹Mercosur样式。

2.3 竞赛阶段与提交格式

  • 公开测试阶段 (约1个月):
    • 提供1,000个测试轨迹(含部分标签用于反馈)。
    • 每日最多5次提交,总计最多25次。
    • 公共排行榜。
  • 盲测阶段 (约1周):
    • 完整3,000个测试轨迹。
    • 排行榜私密,仅能看见自己分数。
    • 每个队伍总计最多3次提交。
  • 提交格式 :每行 track_id,plate_text;confidence

2.4 评估协议

  • 主要指标 :识别率(Recognition Rate)
    • 定义:正确识别的轨迹数 / 总测试轨迹数
    • 要求预测车牌字符串与真实标签完全匹配。
  • 次要指标 (用于平局时):置信度差距(Confidence Gap)
    • 正确预测的平均置信度 − 错误预测的平均置信度
    • 值越大,模型置信度校准越好。

竞赛结果概览

  • 第一名 :识别率 82.13%,置信度差距 6.67%
  • 第二名:81.73%
  • 第三名:80.17%
  • 第四名:80.10%
  • 第五名:79.83%

3 前五名团队方案详解

🥇 第一名:DLmath(韩国大学)

核心方法 :教师-学生框架,联合训练超分辨率模型和OCR模型。

输入为5 帧低分辨率(LR)图像,输出为最终车牌识别文本。

核心逻辑:框架联合训练超分辨率(SR)模型与车牌 OCR 识别模型。学生分支以 LR 图像作为输入进行特征学习;教师分支基于指数移动平均(EMA) 动态更新权重,以降采样后的高分辨率(HR)图像作为监督信号,引导学生分支完成超分特征拟合。

模型组件:超分骨干选用 HATFIR 与 MambaIRv2;OCR 识别模块采用 GP-LPR。推理阶段采用后期融合策略,将 5 帧图像输出的预测 Logits 加权求和后再解码,有效提升车牌识别的鲁棒性与稳定性。

🥈 第二名:AIO_JiangnamCoffee(越南)


核心方法:四阶段识别流程 + 多模型集成。

  • 空间变换(Spatial Transformer Network, STN):用于对齐倾斜的车牌。
  • 特征提取:使用 SE-ResNet34-C 捕捉关键特征。
  • 序列建模:引入 Transformer 编码器。
  • 预测:采用连接时序分类(Connectionist Temporal Classification, CTC)损失进行解码。

特别设计了一个 CNN 注意力模块来评估每帧的质量,并对 5 帧特征进行加权融合。

🥉 第三名:OpenOCR(中国)

核心方法 :低分辨率车牌识别作为鲁棒场景文本识别问题,不显式使用超分辨率。

将问题视为鲁棒场景文本识别,使用了 SVTRv2 架构。没有使用显式的超分模块,而是通过字符级投票机制整合 20 个预测结果(5 帧 × 4 个模型),展现了强力 Backbone 的优势。

第四名:CAP2(韩国)

核心方法 :几何感知预处理 + 双流识别 + 位置感知集成。

利用 U-Net 生成文本区域掩码进行背景抑制,并结合 DINOv3 等强力特征提取器进行双流识别。

第五名:UIT-MeoBeo(越南)

核心方法 :多阶段、多帧OCR管道 + 结构感知解码。

引入了时序 Transformer 进行跨帧融合,并根据巴西和南方共同市场(Mercosur)的车牌布局(如"三字母+一数字+一字母+两数字")进行约束解码。

5 总结与讨论

  • 竞争激烈:前20名识别率仅差5.66个百分点,第一名错误率仍达17.87%,表明任务远未解决。
  • 方法多样性:没有单一主导架构,不同团队在超分辨率、直接识别、多帧融合、集成、布局约束等方面各有侧重。
  • 多帧利用是关键:几乎所有顶级方案都有效利用了5帧轨迹结构(投票、融合、时序建模)。
  • 置信度差距很重要:识别率相近时,置信度差距差异大,影响实际应用中的可靠性。
相关推荐
夜影风1 小时前
RAG入门:用LangChain搭建你的第一个知识库问答系统
人工智能·langchain·rag
乐迪信息1 小时前
乐迪信息:智慧港口安全,船舶AI视觉检测实现主动预警
大数据·人工智能·安全·计算机视觉·目标跟踪·视觉检测
小橙讲编程1 小时前
字节跳动开源多模态AI Agent终极形态:Agent TARS 深度技术解读
人工智能·开源·ai编程
五行星辰1 小时前
《AI引擎:三招掌控人工智能》目录
人工智能
视***间1 小时前
视程空间SC系列采集卡:以硬核技术,重构影像采集新生态
人工智能·音视频·采集卡·视程空间·视频采集卡
扬帆破浪1 小时前
免费开源AI软件.桌面单机版,可移动的AI知识库,察元 AI桌面版
人工智能·开源·知识图谱
captain_AIouo1 小时前
全方位降本增效,Captain AI重构OZON运营成本结构
大数据·人工智能·经验分享·重构·aigc
财迅通Ai1 小时前
双轮驱动弱化周期,向上跃迁重构逻辑:海阳科技如何穿越行业迷雾实现战略进化?
人工智能·科技·重构·海阳科技
白羊by1 小时前
YOLOv8 官方损失函数详解(按任务分类)
人工智能·深度学习·算法·yolo·分类