【Python】Python 图片文字识别(OCR)

Python 图片文字识别(OCR)

1. OCR与Tesseract介绍

将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以实现OCR 的底层库并不多,目前很多库都是使用共同的几个底层OCR 库,或者是在上面进行定制。

Tesseract 是一个OCR 库,目前由Google 赞助(Google 也是一家以OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源OCR 系统。

除了极高的精确度,Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体(只要这些字体的风格保持不变就可以),也可以识别出任何Unicode 字符。

2. Tesseract的安装与使用

Tesseract的Windows安装包下载地址为: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe ,下载后双击直接安装即可。安装完后,需要将Tesseract添加到系统变量中。在CMD中输入tesseract -v, 如显示以下界面,则表示Tesseract安装完成且添加到系统变量中。

Linux 用户可以通过apt-get 安装, Debian 10, Debian 11, Ubuntu 22.04验证通过:

sudo apt install tesseract-ocr tesseract-ocr-chi-sim python3-tesserocr

但是要注意 python3-tesserocr 并非是下面要介绍的。这一节介绍的库名称为 pytesseract 。 pytesseract是Tesseract关于Python的接口,还需要一个Python的图片处理模块,可以安装pillow。 使用下面命令安装完后,就可以使用Python调用Tesseract了:

pip install pytesseract

import pytesseract

3. 识别示例1

用Tesseract可以识别格式规范的文字,主要具有以下特点:

使用一个标准字体(不包含手写体、草书,或者十分"花哨的"字体)

虽然被复印或拍照,字体还是很清晰,没有多余的痕迹或污点

排列整齐,没有歪歪斜斜的字

没有超出图片范围,也没有残缺不全,或紧紧贴在图片的边缘

下面将给出几个tesseract识别图片中文字的例子。

from PIL import Image

text = pytesseract.image_to_string(Image.open('./ocra1.jpg'))

print(text)

BREAKING THE STATUE

i have always known

i just didn't understand

the inner conflictions

arresting our hands

gravitating close enough

expansive distamce between

i couldn't give you more

but 1 meant everything

when the day comes

you find your heart

wants something more

than a viece and a part

your life will change

like astatue set free

to walk among us

to created estiny

we didn't break any rules

we didn't make mistakes

making beauty in loving

making lovine for days---

SHILOW

4. 识别示例2

接着是稍微有点倾斜的文字图片th.jpg,识别情况如下:

可以看到识别的情况不如刚才规范字体的好,但是也能识别图片中的大部分字母。

text = pytesseract.image_to_string(Image.open('./ocrb2.jpg'))

text

'Vieare!n'

3.11.5. 识别示例3

最后是识别简体中文,需要事先安装简体中文语言包,下载地址为:https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata ,再将 chi_sim.traineddata 放在 C:\Program Files (x86)\Tesseract-OCR\tessdata 目录下。我们以图片timg.jpg为例:

输入命令:

tesseract timg.jpg timg.txt -l chi_sim

示例图片:

text = pytesseract.image_to_string(

Image.open('./ocrc3.jpg'),

lang = 'chi_sim')

识别结果如下: 只识别错了一个字,识别率还是不错的。
print(text)

长相思

【清】纳兰性德

山一程,水一程。身向榆

关那畔行,夜深干帐灯。

风一更,雪一更。联碎乡

心梦不成,故园无此声。

最后加一句,Tesseract对于彩色图片的识别效果没有黑白图片的效果好。

相关推荐
ForteScarlet10 分钟前
Kotlin 2.2.20 现已发布!下个版本的特性抢先看!
android·开发语言·kotlin·jetbrains
兴科Sinco12 分钟前
[leetcode 1]给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出和为目标值 target 的那两个整数[力扣]
python·算法·leetcode
anlogic19 分钟前
Java基础 9.10
java·开发语言·算法
程序员奈斯21 分钟前
Python深度学习:NumPy数组库
python·深度学习·numpy
yongche_shi23 分钟前
第二篇:Python“装包”与“拆包”的艺术:可迭代对象、迭代器、生成器
开发语言·python·面试·面试宝典·生成器·拆包·装包
深度学习lover24 分钟前
<数据集>yolo梨幼果识别数据集<目标检测>
python·yolo·目标检测·计算机视觉·数据集
刀客12340 分钟前
测试之道:从新手到专家实战(四)
python·功能测试·程序人生·测试用例·集成测试·学习方法·安全性测试
mit6.82442 分钟前
[rStar] 解决方案节点 | `BaseNode` | `MCTSNode`
人工智能·python·算法
这里有鱼汤43 分钟前
低价股的春天来了?花姐用Python带你扒一扒
后端·python
Elastic 中国社区官方博客1 小时前
介绍 Python Elasticsearch Client 的 ES|QL 查询构建器
大数据·开发语言·数据库·python·elasticsearch·搜索引擎·全文检索