Tesseract OCR使用

hwshea2025-02-22 9:21

准备tif图片

可以使用 Tesseract 自带的 text2image 工具来生成图像
可以使用jTessBoxEditor将图片生成tif文件

tif命名规则： $lang$ . $fontname$ .exp $num$ .tif

lang = 语言
fontname = 字体
num = 图片序号

比如我们要训练自定义字库 testlang、字体名normal，则命名为testlang.normal.exp0.tif

生成box文件

语法如下:

tesseract tif文件名.tif box文件名 -l 字体库 batch.nochop makebox

tesseract zwp.font.exp0.tif
zwp.font.exp0
-l chi_sim
batch.nochop makebox

注意：tif文件名与box文件名必须保持一致

上一篇：Mac book Air M2 用VMware安装 Ubuntu22.04

下一篇：beremiz笔记chatgpt，部署在Ubuntu：20.04版本

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04AI科技热点日报 | 2026年07月01日 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 10【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……