Tesseract OCR使用

  1. 准备tif图片
  • 可以使用 Tesseract 自带的 text2image 工具来生成图像
  • 可以使用jTessBoxEditor将图片生成tif文件

tif命名规则:[lang].[fontname].exp[num].tif

  • lang = 语言
  • fontname = 字体
  • num = 图片序号

比如我们要训练自定义字库 testlang、字体名normal,则命名为testlang.normal.exp0.tif

  1. 生成box文件

    语法如下:

    tesseract tif文件名.tif box文件名 -l 字体库 batch.nochop makebox

    tesseract zwp.font.exp0.tif
    zwp.font.exp0
    -l chi_sim
    batch.nochop makebox

注意:tif文件名与box文件名必须保持一致

相关推荐
私人珍藏库13 小时前
[Windows] Umi-OCR 开源批量文字识别 支持图片,文档,二维码,截图等
ocr
OCR_API4 天前
ocr智能票据识别系统|自动化票据识别集成方案
运维·自动化·ocr
山川而川-R4 天前
PaddlePaddle的OCR模型转onnx-转rknn模型_笔记4
笔记·ocr·paddle
OCR_API7 天前
深度学习算法:ocr营业执照识别可提取字段、接口识别
ocr
深圳市快瞳科技有限公司7 天前
成本哪个更低更好用?分析对比大模型OCR、传统OCR和深度学习OCR
人工智能·深度学习·ocr
小马过河R13 天前
OCR与多模态大模型的关系
人工智能·机器学习·语言模型·nlp·ocr
沉到海底去吧Go13 天前
【自动化办公】批量图片PDF自定义指定多个区域识别重命名,批量识别铁路货物运单区域内容改名,基于WPF和飞桨ocr深度学习模型的解决方案
ocr·paddlepaddle·自动化办公pdf批量操作·pdf电子发票批量提取解决方案·pdf电子发票提取明细到表格·批量获取pdf多区域内容表格·pdf订单详情多区域提取表格
算能开发者社区16 天前
2025 CCF BDCI|“基于TPU平台的OCR模型性能优化”一等奖作品
人工智能·性能优化·ocr
油泼辣子多加16 天前
OCR--光学字符识别
人工智能·深度学习·ocr