[目标检测] OCR: 文字检测、文字识别、text spotter

概述

OCR技术存在两个步骤:文字检测和文字识别,而end-to-end完成这两个步骤的方法就是text spotter。

文字检测数据集摘要

daaset 语言 体量 特色
MTWI 中英文 20k 源于网络图像,主要由合成图像,产品描述,网络广告(淘宝)
MSRA-TD500 中英文
SynthText 800k img + 8000k text 合成数据
CTW1500 中文 32k 野外场景
ICDAR 2015
ICDAR 2019-ReCTS 中文 标识牌上的文字(店铺名等)
ICDAR2019-ArT 中英文 组合Total-Text+SCUT-CTW1500+Baidu Curved Scene Text
ICDAR2019-LSVT 中英文 30k full annotation + 40k weakly annotation Large-scale Street View Text with Partial Labeling,
ICDAR2017-DeText Text Extraction from Biomedical Literature Figures, 生物医学文献图形中的文本提取
ICDAR 2011 (Born-Digital Images)、ICDAR 2017 英文
CurvedSynText150k 英文
Total-Text 英文+少量中文 1.5k 各种形状的文本,包括水平的,多取向的和弯曲的
Lecture Video DB
IMGUR handwriting
KAIST
ILST 印度语言 三种印度语言(Devanagari 、 Telugu 和Malayalam)的场景文本识别数据集
VinText
BID 巴西身份证件数据集
RCTW 12k+ 手机野外拍摄,包括街景、海报、菜单、室内场景以及手机应用的截图
HierText (Google) 英文 自然图像或者文献

OCR方法

前沿text spotter方法

方法框架

  • mmocr: 集成方法并不是最新的(2022年以前的),其中预训练方法只支持英文,文字检测方法还可以检测出中文,文字识别无法识别中文,text spotter尚未介入到统一的接口中。

Github high star

  • tesseract(57.7k star):大概率是文字识别模型,C/C++,提供command line tool。
  • PaddleOCR(38.1k star): 80+ language support。提供轻量化、提供在线demo(后面有测试),provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices。
  • EasyOCR(21.8k star): pytorch based,文字检测基于CRAFT,识别基于LSTM+Transformer。Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc.提供 在线DEMO
  • tesseract.js (33.2k star): pure Javascript OCR for more than 100 Languages。
  • UniOCR (20.6k star): 提供一个界面。
  • OCRmyPDF (11.8k star): 解析pdf图片,基于tesseract。

PaddleOCR(PP-OCRv4)测试图如下

(1)弧形分布文字检测和识别都不准

(2) 放大了也识别不出来,应该和training data相关

Reference

相关推荐
MM_MS3 小时前
Halcon小案例--->路由器散热口个数(两种方法)
人工智能·算法·目标检测·计算机视觉·视觉检测·智能路由器·视觉
智驱力人工智能4 小时前
构筑安全红线 发电站旋转设备停机合规监测的视觉分析技术与应用 旋转设备停机检测 旋转设备异常检测 设备停机AI行为建模
人工智能·opencv·算法·安全·目标检测·计算机视觉·边缘计算
范男4 小时前
工业级变化检测 Baseline:基于 YOLO11 + 孪生网络(Siamese Network)的实战落地
人工智能·深度学习·目标检测·计算机视觉·paddlepaddle
极智视界6 小时前
目标检测数据集 - 自动驾驶场景自行车骑行者检测数据集下载
yolo·目标检测·自动驾驶·数据集·voc·coco·自行车骑行者检测
大学生毕业题目7 小时前
毕业项目推荐:102-基于yolov8/yolov5/yolo11的行人车辆检测识别系统(Python+卷积神经网络)
人工智能·python·yolo·目标检测·cnn·pyqt·行人车辆检测
雍凉明月夜7 小时前
深度学习之目标检测yolo算法Ⅰ(v1-v3)
深度学习·算法·yolo·目标检测
西贝爱学习8 小时前
License Plate Detection Dataset (10,125 Images) 车牌检测数据集(10,125张图像)
数据集
钓了猫的鱼儿8 小时前
农作物病虫害目标检测数据集(百度网盘地址)
人工智能·目标检测·目标跟踪
智驱力人工智能8 小时前
视觉分析赋能路面漏油检测 从产品设计到城市治理的实践 漏油检测 基于YOLO的漏油识别算法 加油站油罐泄漏实时预警技术
人工智能·opencv·算法·yolo·目标检测·计算机视觉·边缘计算
AI人工智能+9 小时前
智能表格识别技术突破传统OCR局限,实现复杂纸质表格的精准数字化转换
深度学习·ocr·表格识别