Ocr之TesseractOcr的安装及使用

目录

一、安装环境

二、安装内容

三、安装过程及识别测试

[1. 安装过程](#1. 安装过程)
[2. 程序编写](#2. 程序编写)

总结

[1. 安装复杂度较低](#1. 安装复杂度较低)
[2. 国外开源Ocr](#2. 国外开源Ocr)
[3. 可设置识别参数](#3. 可设置识别参数)
[4. 工具类](#4. 工具类)

一、 系统环境windows 10

linux环境也可安装, 可借鉴此篇文章>> |

二、安装内容

Tesseract exe 程序安装
exe程序下载地址, 可选择版本安装>> |

shell 复制代码
# 我们这里安装的版本是
tesseract-ocr-w64-setup-5.3.1.20230401.exe

三、安装过程及识别测试

1. 安装过程
  • 安装后的目录结构
    默认安装在C盘。可选择路径。傻瓜式安装就可以
  • 添加环境变量 TESSDATA_PREFIX=<安装的tessoract-ocr.exe后文件夹根路径>/tessdata
2. 程序编写
  • 使用Tesseract进行识别程序的编写
    目前使用TesseractOcr已经更换为 PaddleOcr 了。源于TesseractOcr对背景模糊的图片识别率不高,使用PaddleOcr后识别率有明显提高。

    不过使用PaddleOcr识别过程会将图片进行预处理(图片放大和模糊处理再使用paddleocr识别效果更佳:后期会做记录并将链接加到此处)

  • 使用java程序进行识别需要引用 mvn 第三方依赖

    xml 复制代码
    <!--ocr图像识别-->
     <dependency>
         <groupId>net.sourceforge.tess4j</groupId>
         <artifactId>tess4j</artifactId>
         <version>5.3.0</version>
     </dependency>
  • 单元测试用例+执行结果

    下方代码中对上方图片进行识别(图片名称:new33.jpg)

    java 复制代码
    @Test
    public void readImageByOcr() throws TesseractException {
        String imgSrc = "C:\\...\\changepic\\new33.jpg";
        File imgFile = new File(imgSrc);
        //创建tesseract对象
        Tesseract tes = new Tesseract();
        //语言包位置  根据实际环境修改替换
        tes.setDatapath("E:\\...\\Tesseract-OCR\\tessdata");
        //配置使用的语言  中文
        tes.setLanguage("eng");
        String imgText = tes.doOCR(imgFile);
        System.out.println("解析结果:" + imgText);
    }

    执行后

  • 业务代码示例
    结合业务代码使用TesseractOcr。TesseractOcr使用时可传入不通参数。如language, variable等。
    tessedit_char_whitelist:设置白名单。下方demo限制内容为只能识别数字和字母

    java 复制代码
    /**
      * ocr识别
      * @param img
      * @param dataPath
      * @param replacedEmp 是否替换回车和空格为空, true:替换, false, 不替换(含回车和空格符)
      * @param dpi 分辨率, 默认 96
      * @param charNoLimit 识别空格: true, 不识别空格: false
      * @return
      * @throws TesseractException
      */
     private static String doOcrImpl(BufferedImage img, String dataPath, boolean replacedEmp, String dpi, boolean charNoLimit) throws TesseractException {
         // 初始化 OCR 引擎
         Tesseract tesseract = new Tesseract();
         File tessDataFolder = LoadLibs.extractTessResources("tessdata");
         tesseract.setDatapath(tessDataFolder.getAbsolutePath());
         //语言包位置  根据实际环境修改替换
         tesseract.setDatapath(dataPath);
         //配置使用的语言  中文
         tesseract.setLanguage("eng");
         if(!charNoLimit) {
             //限制只识别数字字母
             tesseract.setVariable("tessedit_char_whitelist", "0123456789CDFGMRTX");
         }
         //设置分辨率
         tesseract.setVariable("user_defined_dpi", dpi);
         String result = tesseract.doOCR(img);
         if(replacedEmp) {
             // 文字识别-过滤空白、换行符
             result = result.replace(StrUtil.SPACE, StrUtil.EMPTY).replace(StrUtil.LF, StrUtil.EMPTY);
         }
         return result;
     }

总结

  1. 安装复杂度较低。
    相比于paddleocr的安装要简单的多(需要安装python环境及下载paddleocr相关内容)。paddleocr安装借鉴 gitee paddleocr开源代码>> |
  2. 属于国外开源Ocr。
  3. 可设置识别参数。可设置变量与识别语言。
  4. 使用Ocr时用到的工具类。可自行测试
java 复制代码
package util;

import cn.hutool.core.util.StrUtil;
import common.aspect.core.StringUtils;
import common.exception.CustomException;
import PO.RecognizeTemplate;
import service.PrintDcmOcrRecognizeService;
import lombok.extern.slf4j.Slf4j;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;
import net.sourceforge.tess4j.util.LoadLibs;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.springframework.beans.factory.annotation.Value;

import javax.imageio.ImageIO;
import javax.imageio.ImageReader;
import javax.imageio.stream.ImageInputStream;
import java.awt.*;
import java.awt.image.BufferedImage;
import java.awt.image.RasterFormatException;
import java.io.File;
import java.io.IOException;
import java.lang.reflect.Method;
import java.util.HashMap;
import java.util.Map;

@Slf4j
public class ReadTextFromFileRegion {
    /**
     * @Description: ocr按区域识别文件
     **/
    public static String doRecognize(File file, Rectangle rectangle, String dataPath, String formateName, String dpi)
            throws Exception {
        if (!file.exists()) {
            throw new CustomException(0, "待识别文件不存在");
        }
        // OCR 文字识别
        return doOcr(createImg(file, rectangle, formateName), dataPath, dpi);
    }
	  /**
	   * file: 图片文件
	   * rectangle: 图片中需要识别的区域。如new Rectangle(x, y, w, h), 坐标及宽高
	   * dataPath: tessData的路径(文章开头已添加到环境变量,也可传入)
	   * formateName: file文件的格式。如 JPG, PNG, DICOM等, 
	   * dpi: tesseractOcr识别时传入的参数。如:tesseract.setVariable("user_defined_dpi", dpi);
	   */
    public static String doRecognizeOrcOriginResult(File file, Rectangle rectangle, String dataPath, String formateName, String dpi)
            throws Exception {
        if (!file.exists()) {
            throw new CustomException(0, "待识别文件不存在");
        }
        // OCR 文字识别
        return doOcrImpl(createImg(file, rectangle, formateName), dataPath, false, dpi, true);
    }
	/**
	 * 截取的图像缓冲区
	 */
    private static BufferedImage createImg(File file, Rectangle rectangle, String formateName) throws Exception {
        BufferedImage img = readFile(file, rectangle, formateName);
        if(img == null) {
            log.warn("读取图像异常: img == null");
            throw new Exception("文件读取异常, 创建img为空.");
        }
        return img;
    }
    
    /**
     * @Description: 把文件转为BufferedImage对象,并截取指定区域
     **/
    private static BufferedImage readFile(File file, Rectangle region, String formateName) throws IOException {
        ImageInputStream iis = null;
        ImageReader reader = null;
        try {
            // 创建 ImageInputStream 对象
            iis = ImageIO.createImageInputStream(file);
            // 获取 指定 文件的 ImageReader 实例
            reader = ImageIO.getImageReadersByFormatName(formateName).next();
            // 设置解码器
            reader.setInput(iis);
            // 如果需要截取图像,获取完整的BufferedImage,然后截取指定区域
            BufferedImage image = reader.read(0);
            BufferedImage subImage = null;
            try{
                subImage = image.getSubimage(region.x, region.y, region.width, region.height);
            }catch (RasterFormatException e) {
                log.warn("截取图像异常: 识别区域超出边界. err.msg: {}", e.toString());
                return subImage;
            }
            // 释放完整的BufferedImage
            image.flush();
            return subImage;
        } finally {
            // 关闭资源
            if (reader != null) {
                reader.dispose();
            }
            if (iis != null) {
                iis.close();
            }
        }
    }

    /**
     * @Description: ocr按区域识别pdf文件
     **/
    public static String doPdfRecognize(File pdfFile, String dataPath) throws Exception {
        BufferedImage img = readPdfToImage(pdfFile);
        // 按自定义区域截取图像
        BufferedImage subImage = img.getSubimage(460, 170, 320, 100);
        // OCR 文字识别
        return doOcr(subImage, dataPath, "120");
    }

    /**
     * @Description: 把pdf转为图像,renderImageWithDPI方法的第二个参数dpi影响图像分辨率,经测试dpi为300,生成2k分辨率的图像
     **/
    private static BufferedImage readPdfToImage(File pdfFile) throws IOException {
        try (PDDocument document = PDDocument.load(pdfFile)) {
            PDFRenderer renderer = new PDFRenderer(document);
            return renderer.renderImageWithDPI(0, 300);
        }
    }

    /**
     * @Description: 使用Tesseract进行ocr识别
     **/
    private static String doOcr(BufferedImage img, String dataPath, String dpi) throws TesseractException {
        return doOcrImpl(img, dataPath, true, dpi, false);
    }

    /**
     * ocr识别
     * @param img
	   * dataPath: tessData的路径(文章开头已添加到环境变量,也可传入)
     * @param replacedEmp 是否替换回车和空格为空, true:替换, false, 不替换(含回车和空格符)
     * @param dpi 分辨率, 默认 96
     * @param charNoLimit 识别空格: true, 不识别空格: false
     * @return
     * @throws TesseractException
     */
    private static String doOcrImpl(BufferedImage img, String dataPath, boolean replacedEmp, String dpi, boolean charNoLimit) throws TesseractException {
        // 初始化 OCR 引擎
        Tesseract tesseract = new Tesseract();
        File tessDataFolder = LoadLibs.extractTessResources("tessdata");
        tesseract.setDatapath(tessDataFolder.getAbsolutePath());
        //语言包位置  根据实际环境修改替换
        tesseract.setDatapath(dataPath);
        //配置使用的语言  中文
        tesseract.setLanguage("eng");
        if(!charNoLimit) {
            //限制只识别数字字母
            tesseract.setVariable("tessedit_char_whitelist", "0123456789CDFGMRTX");
        }
        //设置分辨率
        tesseract.setVariable("user_defined_dpi", dpi);
        String result = tesseract.doOCR(img);
        if(replacedEmp) {
            // 文字识别-过滤空白、换行符
            result = result.replace(StrUtil.SPACE, StrUtil.EMPTY).replace(StrUtil.LF, StrUtil.EMPTY);
        }
        return result;
    }
}
相关推荐
xmh-sxh-13145 分钟前
jdk各个版本介绍
java
天天扭码24 分钟前
五天SpringCloud计划——DAY2之单体架构和微服务架构的选择和转换原则
java·spring cloud·微服务·架构
程序猿进阶25 分钟前
堆外内存泄露排查经历
java·jvm·后端·面试·性能优化·oom·内存泄露
FIN技术铺29 分钟前
Spring Boot框架Starter组件整理
java·spring boot·后端
小曲程序36 分钟前
vue3 封装request请求
java·前端·typescript·vue
陈王卜1 小时前
django+boostrap实现发布博客权限控制
java·前端·django
小码的头发丝、1 小时前
Spring Boot 注解
java·spring boot
java亮小白19971 小时前
Spring循环依赖如何解决的?
java·后端·spring
飞滕人生TYF1 小时前
java Queue 详解
java·队列
武子康1 小时前
大数据-230 离线数仓 - ODS层的构建 Hive处理 UDF 与 SerDe 处理 与 当前总结
java·大数据·数据仓库·hive·hadoop·sql·hdfs