Tesseract OCR 安装与中文+英文识别实现

一、下载

https://digi.bib.uni-mannheim.de/tesseract/

下载,尽量选择时间靠前的(识别更好些)。符合你的运行机(我的是windows64)

持续点击下一步安装,安装你认可的路径即可,没必要配置环境变量(后续在代码里指定即可)。

二、下载语言包

https://github.com/tesseract-ocr/tessdata/blob/main/chi_sim.traineddata

(这是中文的。有了它,后续的识别会更精准)

下载到的语言包放到安装目录的 Tesseract-OCR\tessdata 目录下

三、代码实现和图片优化

注意:图片的优化很重要,这会极大的提高识别。

【图片越大、像素越清晰,识别的准确度越高。

如果是小图片,需要额外做放大、锐化、对比度等处理。 本文章不做这方面的优化。

各位可以截大图和小图对比一下结果就知道了。】

下面以python实现为例:

程序:替换你的安装路径和图片地址,运行即可测试。

python 复制代码
import pytesseract
from PIL import Image

# 设置Tesseract路径(根据实际安装路径修改)
pytesseract.pytesseract.tesseract_cmd = r'C:\soft_install\Tesseract-OCR\tesseract.exe'


def ocr_scan(image_path):
    """
    对指定图片文件进行OCR识别
    :param image_path: 图片文件路径(支持PNG/JPG等格式)
    """
    try:
        # 加载图片文件
        image = Image.open(image_path)

        # 识别文字(中英文混合)
        text = pytesseract.image_to_string(image, lang='chi_sim+eng')
        print("识别结果:\n", text.strip())

    except FileNotFoundError:
        print(f"错误:文件 '{image_path}' 不存在")
    except Exception as e:
        print(f"发生错误:{str(e)}")


if __name__ == "__main__":
    # 直接指定图片路径(示例路径)
    image_path = "processed_latest.png"  # 修改为你的图片路径
    ocr_scan(image_path)

图片实例如下:

(图1 未经过放大和二值化阈值等处理。 会存在识别失真)

(图2 经过放大和二值化阈值处理。 上面的程序可以正确识别

相关推荐
weixin_408099671 天前
身份证OCR识别API接入实战:6种自动化脚本3分钟搞定(含天诺/按键精灵/易语言/C#示例)
ocr·图像识别·api对接·易语言·自动化脚本·身份证ocr·石榴智能
鱼在在1 天前
PP-StructureV3 开启高性能模式转onnx 报错和找不到hpi_model_info_collection.json
ocr·paddle
XM_jhxx2 天前
AI图纸识别 vs 传统OCR:差距在哪里?
人工智能·ocr
weixin_408099672 天前
触动精灵调用身份证OCR识别API实现智能信息录入(Lua脚本实战)
junit·ocr·lua·自动化脚本·石榴智能·身份证ocr识别·触动精灵
kevin 12 天前
财报OCR识别怎么做,银行授信场景下,如何把财报录入从3小时提效至5分钟
ocr
tanis_20773 天前
扫描版中文 PDF 怎么提取文字:用 MinerU 做 OCR + 结构化一体处理
人工智能·pdf·ocr
tanis_20773 天前
学术论文 PDF 的版面自动还原:MinerU 对多栏排版、浮动图表与脚注区域的识别实战
人工智能·pdf·ocr
weixin_408099674 天前
按键精灵如何调用身份证OCR接口做实名录入自动化(带完整脚本代码)
自动化·ocr·按键精灵·身份证ocr·石榴智能·ocr api·脚本自动化
AI人工智能+4 天前
文档抽取系统通过OCR与大语言模型融合技术,将非结构化文档(如合同、保单、表格)自动转换为结构化数据
人工智能·语言模型·ocr·文档抽取
石榴树下的七彩鱼4 天前
发票识别OCR API接入详解:自动提取发票全字段并接入财务系统(附Python/JS/PHP示例)
python·ocr·发票识别·财务自动化·api接入·石榴智能·发票ocr