- 准备tif图片
- 可以使用 Tesseract 自带的
text2image
工具来生成图像 - 可以使用jTessBoxEditor将图片生成tif文件
tif命名规则:[lang].[fontname].exp[num].tif
- lang = 语言
- fontname = 字体
- num = 图片序号
比如我们要训练自定义字库 testlang、字体名normal,则命名为testlang.normal.exp0.tif
-
生成box文件
语法如下:
tesseract tif文件名.tif box文件名 -l 字体库 batch.nochop makebox
tesseract zwp.font.exp0.tif
zwp.font.exp0
-l chi_sim
batch.nochop makebox
注意:tif文件名与box文件名必须保持一致