[目标检测] OCR: 文字检测、文字识别、text spotter

概述

OCR技术存在两个步骤：文字检测和文字识别，而end-to-end完成这两个步骤的方法就是text spotter。

daaset	语言	体量	特色
MTWI	中英文	20k	源于网络图像，主要由合成图像，产品描述，网络广告(淘宝)
MSRA-TD500	中英文
SynthText		800k img + 8000k text	合成数据
CTW1500	中文	32k	野外场景
ICDAR 2015
ICDAR 2019-ReCTS	中文		标识牌上的文字（店铺名等）
ICDAR2019-ArT	中英文		组合Total-Text+SCUT-CTW1500+Baidu Curved Scene Text
ICDAR2019-LSVT	中英文	30k full annotation + 40k weakly annotation	Large-scale Street View Text with Partial Labeling,
ICDAR2017-DeText			Text Extraction from Biomedical Literature Figures，生物医学文献图形中的文本提取
ICDAR 2011 (Born-Digital Images)、ICDAR 2017	英文
CurvedSynText150k	英文
Total-Text	英文+少量中文	1.5k	各种形状的文本,包括水平的,多取向的和弯曲的
Lecture Video DB
IMGUR			handwriting
KAIST
ILST	印度语言		三种印度语言（Devanagari 、 Telugu 和Malayalam）的场景文本识别数据集
VinText
BID			巴西身份证件数据集
RCTW		12k+	手机野外拍摄，包括街景、海报、菜单、室内场景以及手机应用的截图
HierText (Google)	英文		自然图像或者文献

mmocr: 集成方法并不是最新的(2022年以前的），其中预训练方法只支持英文，文字检测方法还可以检测出中文，文字识别无法识别中文，text spotter尚未介入到统一的接口中。

tesseract（57.7k star）：大概率是文字识别模型，C/C++，提供command line tool。
PaddleOCR（38.1k star）: 80+ language support。提供轻量化、提供在线demo（后面有测试）,provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices。
EasyOCR（21.8k star）: pytorch based，文字检测基于CRAFT，识别基于LSTM+Transformer。Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc.提供在线DEMO。
tesseract.js (33.2k star): pure Javascript OCR for more than 100 Languages。
UniOCR (20.6k star): 提供一个界面。
OCRmyPDF (11.8k star): 解析pdf图片，基于tesseract。

（1）弧形分布文字检测和识别都不准

(2) 放大了也识别不出来，应该和training data相关