Java 读取TIFF JPEG GIF PNG PDF

Java 读取TIFF JPEG GIF PNG PDF

本文解决方法基于开源 tesseract

  1. 下载适合自己系统版本的tesseract官网链接https://digi.bib.uni-mannheim.de/tesseract/

2. 下载之后安装,安装的时候选择选择语言包,我选择了中文和英文

  1. 如官网说明 Windows本机库是用Visual Studio构建的 需要依赖 Visual C++ 2015-2022 Redistributable Packages. 如果在window 上运行的话需要下载且安装。下载地址https://learn.microsoft.com/en-US/cpp/windows/latest-supported-vc-redist?view=msvc-170

    选择下载合适的版本

不安装可能会报错

c 复制代码
 exception in thread "main" java.lang.unsatisfiedlinkerror: 找不到指定的模块。

安装后需要重启电脑

  1. 写几行代码尝试读取图片中的文字
java 复制代码
    public static void main(String[] args) {
        
        Tesseract tesseract = new Tesseract();
        // 读取中文
       tesseract.setLanguage("chi_sim");

        try {
			// 安装tessdata 的路径
           tesseract.setDatapath("D:\\Software\\tessdata");

                     BufferedImage image = ImageIO.read(new File(path));

            // 要读取的文件
            String text = tesseract.doOCR(image);

            
            System.out.print(text);
        }
        catch (TesseractException e) {
            e.printStackTrace();
        }
    }

R-C.jpg 图片

运行的结果如下:

相关推荐
Java面试题总结2 分钟前
Spring AI 初步集成(2)-添加记忆
java·人工智能·spring
野犬寒鸦2 分钟前
JVM垃圾回收机制深度解析(G1篇)(垃圾回收过程及专业名词详解)
java·服务器·jvm·后端·面试
清水白石0083 分钟前
协程不是线程:深入理解 Python async/await 运行机制
java·linux·python
程序员老乔3 分钟前
Java 新纪元 — JDK 25 + Spring Boot 4 全栈实战(五):FFM API,告别JNI在Spring Boot中直连推荐引擎
java·开发语言·spring boot
va学弟4 分钟前
Java 网络通信编程(7):完善视频通信
java·服务器·网络
后青春期的诗go5 分钟前
泛微OA-E9与第三方系统集成开发企业级实战记录(九)
java·金蝶·erp·泛微·oa·集成开发·e9
逸Y 仙X10 分钟前
文章十:ElasticSearch索引字段高级属性
java·大数据·elasticsearch·搜索引擎·全文检索
就叫飞六吧12 分钟前
Tomcat /hvm类加载机制
java·笔记
共享家952715 分钟前
Java入门( 日期类与 BigDecimal 工具类 )
java·开发语言
gorgeous(๑>؂<๑)21 分钟前
【CVPR26-雷涛-陕西科技大学陕西省人工智能联合实验室】SPEGC:基于语义提示增强图聚类的医学图像分割持续测试时自适应
人工智能·科技·机器学习·数据挖掘·聚类