目录
[(一)CTC Loss](#(一)CTC Loss)
一、前言
在智能交通与自动驾驶的感知系统中,车牌识别(License Plate Recognition,简称 LPR)是一个非常典型的落地任务。
它通常包含两个阶段:
车牌检测 + 车牌识别
其中"车牌识别"是核心难点之一,因为它要求:
-
高精度字符识别
-
强抗干扰能力(光照、模糊、遮挡)
-
实时性(嵌入式部署)
在这一背景下,LPRNet 被提出。
LPRNet = 专门为车牌识别设计的轻量级端到端网络
二、LPRNet是什么
(一)基本定义
LPRNet是一种:
无需字符切割,直接进行端到端车牌识别的深度学习模型
(二)核心思想
传统方法:
检测字符 → 分割字符 → 单字符识别
LPRNet:
直接输入整张车牌 → 输出字符序列
(三)一句话理解
把车牌识别当作"序列分类问题"
三、LPRNet整体结构
(一)结构组成
LPRNet主要由三部分组成:
1. Backbone特征提取
2. Sequence Mapping(序列映射)
3. CTC解码
(二)整体流程
Input Image
↓
CNN Feature Extractor
↓
Sequence Features
↓
CTC Decoder
↓
License Plate Text
四、Backbone特征提取
(一)作用
提取车牌图像的视觉特征
(二)特点
-
轻量CNN结构
-
多层卷积 + BN + ReLU
-
不使用全连接层
(三)特点总结
强调"轻量 + 实时"
五、序列建模思想
(一)核心问题
车牌本质是:
一串字符序列
例如:
粤B12345
(二)转换方式
CNN输出:
(B, C, H, W)
转换为:
序列特征 (T, feature_dim)
(三)理解方式
把图像"按宽度切片"为序列
六、CTC(关键核心)
(一)CTC是什么
CTC(Connectionist Temporal Classification)是一种:
用于处理不对齐序列的损失函数
(二)核心作用
解决问题:
输入图像长度 ≠ 输出字符长度
(三)CTC优势
-
不需要字符切割
-
自动对齐
-
适合序列识别
(四)CTC解码示例
输入:---粤粤B1--2-3-4-5
输出:粤B12345
七、CTC数学表达
P(y|x)=\sum_{\pi \in \mathcal{B}^{-1}(y)} P(\pi|x)
含义
-
y:目标序列
-
π:所有可能路径
-
B:映射函数
八、LPRNet结构特点
(一)无全连接层
减少参数量
(二)全卷积结构
适合任意宽度输入
(三)端到端训练
输入图像 → 输出文本
九、LPRNet网络结构
(一)简化结构
Conv Layers
↓
Feature Map
↓
1×1 Conv (class mapping)
↓
CTC Loss
(二)关键设计
-
轻量化卷积
-
时间序列展开
-
分类映射层
十、LPRNet训练流程
(一)流程
Dataset → Model → CTC Loss → Backprop → Update
(二)输入输出
-
输入:车牌图像
-
输出:字符序列概率
(三)优化器
-
Adam
-
SGD
十一、LPRNet损失函数
(一)CTC Loss
L = -\log P(y|x)
(二)作用
最大化正确字符序列概率
十二、数据集
(一)常见数据集
-
CCPD(中国车牌)
-
AOLP
-
UFPR-ALPR
(二)数据特点
-
多角度
-
复杂光照
-
遮挡严重
(三)标注形式
车牌图像 + 字符标签
十三、数据预处理
(一)基本操作
-
Resize(如 94×24)
-
Normalize
-
数据增强
(二)数据增强
-
模糊
-
亮度变化
-
旋转
十四、LPRNet推理流程
(一)步骤
Image → CNN → Sequence → CTC Decode → Text
(二)解码方式
-
Greedy decoding
-
Beam search
十五、应用场景
(一)智能交通
-
车辆识别
-
收费系统
(二)停车管理
-
自动识别车牌
-
门禁系统
(三)安防系统
-
黑名单识别
-
车辆追踪
十六、LPRNet优势
(一)轻量级
适合嵌入式部署
(二)端到端
无需字符分割
(三)实时性强
推理速度快
(四)鲁棒性较好
适应复杂环境
十七、LPRNet局限性
(一)复杂场景下降明显
-
遮挡严重
-
低分辨率
(二)长序列能力有限
(三)依赖检测质量
需配合车牌检测模型
十八、LPRNet结构总结
Input Image
↓
CNN Backbone
↓
Feature Sequence
↓
CTC Layer
↓
Text Output
十九、总结
LPRNet是一种面向车牌识别任务设计的轻量级端到端网络,它通过CNN提取特征,并结合CTC实现序列建模,从而避免传统字符切割流程,实现高效、实时的车牌识别。
本文系统讲解了:
1、LPRNet基本概念;
2、端到端识别思想;
3、网络结构;
4、序列建模方式;
5、CTC原理;
6、训练与推理流程;
7、数据集;
8、应用场景;
9、优缺点分析;
10、整体结构总结。
可以将LPRNet理解为:
"一种基于CNN + CTC的轻量级序列识别网络,是车牌OCR任务中工程落地最经典的方案之一。"
掌握LPRNet,就掌握了视觉OCR从"字符分割"走向"端到端识别"的关键路径。