JAVA Tesseract OCR引擎

Tess4j是一个基于Tesseract OCR引擎的Java库, Tesseract库最初由惠普实验室于1985年开发,后来被Google收购并于2006年开源。识别效果不好,速度还慢,但是好早好早了。

一、POM依赖

XML 复制代码
   <!--OCR识别
        https://digi.bib.uni-mannheim.de/tesseract/tessdata_fast/ 训练文件下载
        -->
        <dependency>
            <groupId>net.sourceforge.tess4j</groupId>
            <artifactId>tess4j</artifactId>
            <version>5.12.0</version>            
        </dependency>

        <dependency>
            <groupId>net.java.dev.jna</groupId>
            <artifactId>jna</artifactId>
            <version>5.14.0</version>
        </dependency>

记的要下载训练文件 chi_sim.traineddata

二、配置文件 TesseractOcrConfiguration

java 复制代码
import cn.cakeerp.util.StrUtil;
import net.sourceforge.tess4j.Tesseract;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;

@Configuration
public class TesseractOcrConfiguration {

    @Bean
    public Tesseract tesseract() {
        Tesseract tesseract = new Tesseract();
        // 设置训练数据文件夹路径
        tesseract.setDatapath(StrUtil.erpConfig.getTraineddata());
        // 设置为中文简体
        tesseract.setLanguage("chi_sim");
        return tesseract;
    }
}

三、使用

java 复制代码
    @Resource
    private Tesseract tesseract;

    //直接就可以识别,也可以
    System.out.println(tesseract.doOCR(new File("d:\\2.jpg")));

    //也可以从 MultipartFile imageFile 里面识别

        InputStream is = null;
        try {
            is = new ByteArrayInputStream(imageFile.getBytes());
            BufferedImage bufferedImage = ImageIO.read(is);
            String textStr = tesseract.doOCR(bufferedImage);
            if (null == textStr || textStr.trim().equals("")) {
                return JsonResult.failed("识别失败,结果为空.");
            }          
            log.error("识别内容为:{}", textStr);
            return JsonResult.failed("未识别到订单号", -1);
        } catch (Exception e) {
            return JsonResult.failed(e.getMessage(), -1);
        } finally {
            if (null != is) {
                try {
                    is.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }
        }

后续 在官方的仓库中下载到了最新的训练文件 50.2MB结果测试效果还是没啥变化,里面也没有什么可配置的参数。不知道别人怎么用呢。

tessdoc/Data-Files.md at main · tesseract-ocr/tessdoc · GitHub

相关推荐
绘绘~2 天前
PDF扫描版文字识别OCR
pdf·开源·github·ocr
翔云API5 天前
简单好用的OCR API
大数据·开发语言·node.js·ocr·php
undo_try5 天前
OCR经典神经网络(一)文本识别算法CRNN算法原理及其在icdar15数据集上的应用
神经网络·算法·ocr
AskHarries5 天前
Spring Boot集成Tess4J实现OCR
java·spring boot·后端·ocr
翔云API7 天前
Node.js发票识别接口助力企业实现发票的精准高效管理
开发语言·node.js·自动化·ocr·php
洛阳泰山8 天前
Chainlit结合百度飞浆的ocr识别和nlp自然语言处理做图片文字信息提取
百度·自然语言处理·ocr·paddlepaddle·chainlit
威威当爸了9 天前
Deep Ocr
ocr
火星技术9 天前
免费OCR 文字识别工具
ocr
wavehaha11 天前
使用百度飞桨PaddleOCR进行OCR识别
ocr·paddlepaddle
思通数科x11 天前
OCR技术视角:智能文档管理中的票据自动化识别与处理
图像处理·人工智能·计算机视觉·自动化·ocr·文本识别