Java 读取TIFF JPEG GIF PNG PDF

Java 读取TIFF JPEG GIF PNG PDF

本文解决方法基于开源 tesseract

  1. 下载适合自己系统版本的tesseract官网链接https://digi.bib.uni-mannheim.de/tesseract/

2. 下载之后安装,安装的时候选择选择语言包,我选择了中文和英文

  1. 如官网说明 Windows本机库是用Visual Studio构建的 需要依赖 Visual C++ 2015-2022 Redistributable Packages. 如果在window 上运行的话需要下载且安装。下载地址https://learn.microsoft.com/en-US/cpp/windows/latest-supported-vc-redist?view=msvc-170

    选择下载合适的版本

不安装可能会报错

c 复制代码
 exception in thread "main" java.lang.unsatisfiedlinkerror: 找不到指定的模块。

安装后需要重启电脑

  1. 写几行代码尝试读取图片中的文字
java 复制代码
    public static void main(String[] args) {
        
        Tesseract tesseract = new Tesseract();
        // 读取中文
       tesseract.setLanguage("chi_sim");

        try {
			// 安装tessdata 的路径
           tesseract.setDatapath("D:\\Software\\tessdata");

                     BufferedImage image = ImageIO.read(new File(path));

            // 要读取的文件
            String text = tesseract.doOCR(image);

            
            System.out.print(text);
        }
        catch (TesseractException e) {
            e.printStackTrace();
        }
    }

R-C.jpg 图片

运行的结果如下:

相关推荐
程序猿乐锅2 分钟前
【苍穹外卖|Day01】项目初识:从多模块结构到 OpenAPI 接口文档踩坑
java·spring·maven·mybatis
李白的天不白4 分钟前
针对你遇到的 Client.Timeout exceeded 问题,我判断是防火墙拦截了 HTTPS 流量
java
linweidong8 分钟前
Java 后端开发面试 50 个高频易混淆知识点详解
java·spring boot·spring·spring cloud·面试·mybatis·spring事务
码语智行8 分钟前
应用启动和关闭监听器功能分析
java·spring boot
Resky08189 分钟前
什么是 Spring IOC:倒过来让容器帮你 new,而不是你到处 new
java·spring
AutumnWind04209 分钟前
【JDK动态代理源码梳理】
java·后端·spring
yyuuuzz11 分钟前
运维场景中AI模型的常见问题
运维·服务器·人工智能·深度学习·机器学习·云计算·aws
小糖学代码13 分钟前
机器学习:3.逻辑回归
人工智能·机器学习·线性回归
暗夜猎手-大魔王18 分钟前
转载--Hermes Agent 10 | 7 层安全防线:从用户授权到输入净化
java·数据库·安全
idolao2 小时前
Oligo 7.60 安装教程:引物设计+Java 环境配置
java·开发语言