Tesseract OCR使用

  1. 准备tif图片
  • 可以使用 Tesseract 自带的 text2image 工具来生成图像
  • 可以使用jTessBoxEditor将图片生成tif文件

tif命名规则:[lang].[fontname].exp[num].tif

  • lang = 语言
  • fontname = 字体
  • num = 图片序号

比如我们要训练自定义字库 testlang、字体名normal,则命名为testlang.normal.exp0.tif

  1. 生成box文件

    语法如下:

    tesseract tif文件名.tif box文件名 -l 字体库 batch.nochop makebox

    tesseract zwp.font.exp0.tif
    zwp.font.exp0
    -l chi_sim
    batch.nochop makebox

注意:tif文件名与box文件名必须保持一致

相关推荐
Chunyyyen2 小时前
【第二十六周】OCR学习01
学习·计算机视觉·ocr
恶猫21 小时前
STranslate 翻译 工具 v2.0.0 绿色便携版 翻译、OCR工具
ocr·文字识别·自动翻译·翻译·划词翻译·截图翻译
垦***耪1 天前
台达 DVP ES2 与 3 台英威腾 GD 通讯程序(TDES - 12)开发实战
ocr
MonkeyKing_sunyuhua2 天前
使用ARQ做PDF OCR和 图片OCR的任务的方案
pdf·ocr
kevin 12 天前
合同盖章前,如何比对差异,确保纸质版与电子版100%一致?
人工智能·自动化·ocr
AI人工智能+2 天前
授权委托书识别技术:利用深度学习和NLP实现纸质文档的智能解析
ocr·文档抽取·授权委托书识别
大强同学2 天前
ShareX - 错误:英语 language is not available in this system for OCR.
ocr
不惑_3 天前
在 Rokid 眼镜上实现工业巡检与 OCR,识别、理解与指导的现场智能
ocr
翔云 OCR API3 天前
赋能文档的数字化智能处理:通用文字/文档/合同识别接口
开发语言·人工智能·python·计算机视觉·ocr
番石榴AI4 天前
java版的ocr推荐引擎——JiaJiaOCR 2.0重磅升级!纯Java CPU推理,新增手写OCR与表格识别
java·python·ocr