python pytesseract库,ocr

pytesseract

  • 安装pytesseract-ocr

    mac:

    python 复制代码
    //先安装依赖库libpng, jpeg, libtiff, leptonica
    brew install leptonica
    
    //安装tesseract的同时安装训练工具
    brew install --with-training-tools tesseract
    
    //安装tesseract的同时安装所有语言,语言包比较大,如果安装的话时间较长,建议不安装,按需选择
    brew install  --all-languages tesseract
    
    //安装tesseract,并安装训练工具和语言
    brew install --all-languages --with-training-tools tesseract 
    
    //只安装tesseract,不安装训练工具
    brew install  tesseract

    win:

    安装包地址:https://github.com/UB-Mannheim/tesseract/wiki

    配置环境变量

    安装依赖包:

    pip install pytesseract

    pip install pillow

  • 下载语言库

    chi_sim.traineddata:中文简体

    eng.traineddata:英文

    https://github.com/tesseract-ocr/tessdata

  • 使用

    python 复制代码
    from PIL import Image
    import pytesseract
    text = pytesseract.image_to_string(Image.open('./eng.png')
                                       ,lang='eng' # 指定语言,chi_sim为简体中文
                                      )
    print(text)

相关推荐
HsuHeinrich2 小时前
流程图(四)利用python绘制漏斗图
python·数据可视化
码农丁丁4 小时前
[python3]Excel解析库-xlwt
python·excel·xlwt
reasonsummer4 小时前
【办公类-47-02】20250103 课题资料快速打印(单个docx转PDF,多个pdf合并一个PDF 打印)
python·pdf
io_T_T6 小时前
python SQLAlchemy ORM——从零开始学习 01 安装库
python
香菜的开发日记6 小时前
快速学习 pytest 基础知识
自动化测试·python·pytest
背太阳的牧羊人6 小时前
grouped.get_group((‘B‘, ‘A‘))选择分组
python·pandas
穆姬姗7 小时前
【Python】论文长截图、页面分割、水印去除、整合PDF
开发语言·python·pdf
chusheng18408 小时前
基于 Python Django 的西西家居全屋定制系统(源码+部署+文档)
开发语言·python·django·家具定制系统·python 全屋家具定制系统·python 家居定制
走在考研路上8 小时前
力扣896
python·算法·leetcode
wshzd8 小时前
LLM之RAG实战(五十一)| 使用python和Cypher解析PDF数据,并加载到Neo4j数据库
数据库·python·pdf