OCR调研

一、介绍

OCR（Optical Character Recognition，光学字符识别）是一种将图像中的文字转换为计算机可处理格式的技术。OCR技术经历了从传统OCR到基于深度学习的OCR的转变。深度学习OCR技术通过模拟人脑神经元结构处理文本和图像数据，相较于传统OCR，在复杂场景下的识别性能和速度有显著提升。它在金融、保险、医疗、交通、教育等多个行业中有广泛应用，并随着人工智能技术的发展，OCR技术的性能不断提升，应用场景也日益复杂化。

二、开源项目

1 PaddleOCR

项目地址：https://github.com/PaddlePaddle/PaddleOCR

PaddleOCR文档：https://paddlepaddle.github.io/PaddleOCR/

百度开源项目，文档完善。PaddleOCR 旨在打造一套丰富、领先、且实用的 OCR 工具库，助力使用者训练出更好的模型，并应用落地。

优点：准确率高，支持多语言，支持多种 OCR 相关前沿算法，支持自训练，支持倾斜、竖排等多种方向文字识别

缺点：偏向中文识别，语言支持有限

部署：本地部署、云端部署、docker

2 Tesseract

项目地址：https://github.com/tesseract-ocr/tesseract

优点：由Google维护，支持超过100种语言的识别，并且能够处理多种图像格式，如PNG、JPEG和TIFF等。提供了丰富的API接口和文档，支持多种操作系统。

缺点：速度慢

部署：安装Tesseract OCR（Windows/Linux）、配置环境变量

3 EasyOCR

项目地址：https://github.com/JaidedAI/EasyOCR

优点：全语种的（包括70+门外语识别），不单单针对中文

缺点：速度慢，官方推荐支持CUDA的独立显卡可以提高运行效率。

部署：pip安装，只能linux/windows下运行。

4 chineseocr

基于yolo3 与crnn 实现中文自然场景文字检测及识别

项目地址：https://github.com/chineseocr/chineseocr

优点：支持补充训练，有多版本优化模型

缺点：使用的三方库较老，部分三方库已废弃，环境配置困难，效果一般，且很少维护

5 chineseocr_lite

超轻量级中文ocr，支持竖排文字识别, 支持ncnn、mnn、tnn推理 ( dbnet(1.8M) + crnn(2.5M) + anglenet(378KB)) 总模型仅4.7M

项目地址：https://github.com/DayBreak-u/chineseocr_lite

优点：轻量模型，执行速度快，准确率高

缺点：不支持pip安装，不支持补充训练，不支持自定义训练；不支持复杂、不常见字符，比如德语、法语；竖向文本识别错误。

部署：源码下载运行

6 CnOCR

CnOCR 是 Python 3 下的文字识别（Optical Character Recognition，简称OCR）工具包，支持简体中文、繁体中文（部分模型）、英文和数字的常见字符识别，支持竖排文字的识别。自带了20+个训练好的识别模型，适用于不同应用场景，安装后即可直接使用。同时，CnOCR也提供简单的训练命令供使用者训练自己的模型。

项目地址：https://github.com/breezedeus/cnocr

文档：https://cnocr.readthedocs.io/zh-cn/stable/

优点：轻量模型，执行速度快，效果好，支持训练自己的模型

缺点：部分符号识别效果差，部分场景下会出现空格丢失情况

部署：pip