Tesseract OCR使用

  1. 准备tif图片
  • 可以使用 Tesseract 自带的 text2image 工具来生成图像
  • 可以使用jTessBoxEditor将图片生成tif文件

tif命名规则:[lang].[fontname].exp[num].tif

  • lang = 语言
  • fontname = 字体
  • num = 图片序号

比如我们要训练自定义字库 testlang、字体名normal,则命名为testlang.normal.exp0.tif

  1. 生成box文件

    语法如下:

    tesseract tif文件名.tif box文件名 -l 字体库 batch.nochop makebox

    tesseract zwp.font.exp0.tif
    zwp.font.exp0
    -l chi_sim
    batch.nochop makebox

注意:tif文件名与box文件名必须保持一致

相关推荐
shuxunAPI1 天前
驾驶证 OCR 识别 API 接口如何对接?
ocr·api
old_power2 天前
OCR 识别案例
人工智能·计算机视觉·ocr
watersink2 天前
5款视觉OCR开源模型
ocr
程序员柒叔2 天前
制作PaddleOCR/PaddleHub的Docker镜像
python·docker·ocr·paddle
mailangduoduo3 天前
基于深度学习的图片识别系统(下)
人工智能·深度学习·计算机视觉·ocr·卷积神经网络
征途黯然.4 天前
olmOCR模型论文解读
ocr·vlm·olmocr
小马不是哥哥5 天前
手机扫描仪 含PDF转word功能+OCR识别110种语言
pdf·ocr
似璟如你7 天前
springboot实现调用百度ocr实现身份识别+二要素校验
ocr
2301_764441337 天前
olmOCR大模型:支持结构化精准提取复杂PDF文件内容
python·pdf·ocr
沉到海底去吧Go7 天前
分享:图片识别改名,能识别图片中的文字并批量改名的工具,用WPF和阿里云来完成
ocr·wpf·批量图片区域识别改名