Tesseract OCR使用

  1. 准备tif图片
  • 可以使用 Tesseract 自带的 text2image 工具来生成图像
  • 可以使用jTessBoxEditor将图片生成tif文件

tif命名规则:[lang].[fontname].exp[num].tif

  • lang = 语言
  • fontname = 字体
  • num = 图片序号

比如我们要训练自定义字库 testlang、字体名normal,则命名为testlang.normal.exp0.tif

  1. 生成box文件

    语法如下:

    tesseract tif文件名.tif box文件名 -l 字体库 batch.nochop makebox

    tesseract zwp.font.exp0.tif
    zwp.font.exp0
    -l chi_sim
    batch.nochop makebox

注意:tif文件名与box文件名必须保持一致

相关推荐
AI人工智能+14 小时前
发票识别技术:结合OCR与AI技术,实现纸质票据高效数字化,推动企业智能化转型
人工智能·nlp·ocr·发票识别
AI人工智能+17 小时前
结婚证识别技术:利用OCR和深度学习实现婚姻证件信息的自动提取与结构化处理
深度学习·ocr·结婚证识别
xyj418921 小时前
《深入理解Java虚拟机JVM高级特性与最佳实践》
ocr
东风西巷2 天前
STranslate(翻译工具OCR工具) 中文绿色版
学习·ocr·电脑·软件需求
XXX-X-XXJ2 天前
三、从 MinIO 存储到 OCR 提取,再到向量索引生成
人工智能·后端·python·ocr
EkihzniY2 天前
车牌 OCR 识别:国庆高速免费通行的 “隐形引擎”
ocr
wt_cs2 天前
OCR API让工作归于调理-文字识别接口-发票、银行卡、文档识别
ocr
qq_546937272 天前
身份证批量ocr
ocr
AI人工智能+2 天前
行驶证识别技术通过OCR和AI实现信息自动化采集与处理,涵盖图像预处理、文字识别及结构化校验,提升效率与准确性
人工智能·深度学习·ocr·行驶证识别
EkihzniY2 天前
医疗发票 OCR 识别:打通医疗费用处理 “堵点” 的技术助手
大数据·人工智能·ocr