概述
OCR技术存在两个步骤:文字检测和文字识别,而end-to-end完成这两个步骤的方法就是text spotter。
文字检测数据集摘要
daaset | 语言 | 体量 | 特色 |
---|---|---|---|
MTWI | 中英文 | 20k | 源于网络图像,主要由合成图像,产品描述,网络广告(淘宝) |
MSRA-TD500 | 中英文 | ||
SynthText | 800k img + 8000k text | 合成数据 | |
CTW1500 | 中文 | 32k | 野外场景 |
ICDAR 2015 | |||
ICDAR 2019-ReCTS | 中文 | 标识牌上的文字(店铺名等) | |
ICDAR2019-ArT | 中英文 | 组合Total-Text+SCUT-CTW1500+Baidu Curved Scene Text | |
ICDAR2019-LSVT | 中英文 | 30k full annotation + 40k weakly annotation | Large-scale Street View Text with Partial Labeling, |
ICDAR2017-DeText | Text Extraction from Biomedical Literature Figures, 生物医学文献图形中的文本提取 | ||
ICDAR 2011 (Born-Digital Images)、ICDAR 2017 | 英文 | ||
CurvedSynText150k | 英文 | ||
Total-Text | 英文+少量中文 | 1.5k | 各种形状的文本,包括水平的,多取向的和弯曲的 |
Lecture Video DB | |||
IMGUR | handwriting | ||
KAIST | |||
ILST | 印度语言 | 三种印度语言(Devanagari 、 Telugu 和Malayalam)的场景文本识别数据集 | |
VinText | |||
BID | 巴西身份证件数据集 | ||
RCTW | 12k+ | 手机野外拍摄,包括街景、海报、菜单、室内场景以及手机应用的截图 | |
HierText (Google) | 英文 | 自然图像或者文献 |
OCR方法
前沿text spotter方法
方法框架
- mmocr: 集成方法并不是最新的(2022年以前的),其中预训练方法只支持英文,文字检测方法还可以检测出中文,文字识别无法识别中文,text spotter尚未介入到统一的接口中。
Github high star
- tesseract(57.7k star):大概率是文字识别模型,C/C++,提供command line tool。
- PaddleOCR(38.1k star): 80+ language support。提供轻量化、提供在线demo(后面有测试),provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices。
- EasyOCR(21.8k star): pytorch based,文字检测基于CRAFT,识别基于LSTM+Transformer。Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc.提供 在线DEMO。
- tesseract.js (33.2k star): pure Javascript OCR for more than 100 Languages。
- UniOCR (20.6k star): 提供一个界面。
- OCRmyPDF (11.8k star): 解析pdf图片,基于tesseract。
PaddleOCR(PP-OCRv4)测试图如下
(1)弧形分布文字检测和识别都不准
(2) 放大了也识别不出来,应该和training data相关