python pytesseract库,ocr

pytesseract

  • 安装pytesseract-ocr

    mac:

    python 复制代码
    //先安装依赖库libpng, jpeg, libtiff, leptonica
    brew install leptonica
    
    //安装tesseract的同时安装训练工具
    brew install --with-training-tools tesseract
    
    //安装tesseract的同时安装所有语言,语言包比较大,如果安装的话时间较长,建议不安装,按需选择
    brew install  --all-languages tesseract
    
    //安装tesseract,并安装训练工具和语言
    brew install --all-languages --with-training-tools tesseract 
    
    //只安装tesseract,不安装训练工具
    brew install  tesseract

    win:

    安装包地址:https://github.com/UB-Mannheim/tesseract/wiki

    配置环境变量

    安装依赖包:

    pip install pytesseract

    pip install pillow

  • 下载语言库

    chi_sim.traineddata:中文简体

    eng.traineddata:英文

    https://github.com/tesseract-ocr/tessdata

  • 使用

    python 复制代码
    from PIL import Image
    import pytesseract
    text = pytesseract.image_to_string(Image.open('./eng.png')
                                       ,lang='eng' # 指定语言,chi_sim为简体中文
                                      )
    print(text)

相关推荐
烛阴6 小时前
简单入门Python装饰器
前端·python
好开心啊没烦恼6 小时前
Python 数据分析:numpy,说人话,说说数组维度。听故事学知识点怎么这么容易?
开发语言·人工智能·python·数据挖掘·数据分析·numpy
面朝大海,春不暖,花不开7 小时前
使用 Python 实现 ETL 流程:从文本文件提取到数据处理的全面指南
python·etl·原型模式
2301_805054568 小时前
Python训练营打卡Day59(2025.7.3)
开发语言·python
万千思绪8 小时前
【PyCharm 2025.1.2配置debug】
ide·python·pycharm
微风粼粼10 小时前
程序员在线接单
java·jvm·后端·python·eclipse·tomcat·dubbo
云天徽上10 小时前
【PaddleOCR】OCR表格识别数据集介绍,包含PubTabNet、好未来表格识别、WTW中文场景表格等数据,持续更新中......
python·ocr·文字识别·表格识别·paddleocr·pp-ocrv5
你怎么知道我是队长10 小时前
python-input内置函数
开发语言·python
叹一曲当时只道是寻常10 小时前
Python实现优雅的目录结构打印工具
python
hbwhmama11 小时前
python高级变量XIII
python