Java 读取TIFF JPEG GIF PNG PDF

Java 读取TIFF JPEG GIF PNG PDF

本文解决方法基于开源 tesseract

  1. 下载适合自己系统版本的tesseract官网链接https://digi.bib.uni-mannheim.de/tesseract/

2. 下载之后安装,安装的时候选择选择语言包,我选择了中文和英文

  1. 如官网说明 Windows本机库是用Visual Studio构建的 需要依赖 Visual C++ 2015-2022 Redistributable Packages. 如果在window 上运行的话需要下载且安装。下载地址https://learn.microsoft.com/en-US/cpp/windows/latest-supported-vc-redist?view=msvc-170

    选择下载合适的版本

不安装可能会报错

c 复制代码
 exception in thread "main" java.lang.unsatisfiedlinkerror: 找不到指定的模块。

安装后需要重启电脑

  1. 写几行代码尝试读取图片中的文字
java 复制代码
    public static void main(String[] args) {
        
        Tesseract tesseract = new Tesseract();
        // 读取中文
       tesseract.setLanguage("chi_sim");

        try {
			// 安装tessdata 的路径
           tesseract.setDatapath("D:\\Software\\tessdata");

                     BufferedImage image = ImageIO.read(new File(path));

            // 要读取的文件
            String text = tesseract.doOCR(image);

            
            System.out.print(text);
        }
        catch (TesseractException e) {
            e.printStackTrace();
        }
    }

R-C.jpg 图片

运行的结果如下:

相关推荐
Hcoco_me4 分钟前
车载摄像头核心知识点结构化总结
人工智能·深度学习·数码相机·算法·机器学习·自动驾驶
廋到被风吹走8 分钟前
安全防护深度解析:敏感信息加密、密码哈希与密钥管理实战
java
biyezuopinvip28 分钟前
基于Spring Boot的投资理财系统设计与实现(毕业论文)
java·spring boot·vue·毕业设计·论文·毕业论文·投资理财系统设计与实现
iAkuya36 分钟前
(leetcode)力扣100 75前K个高频元素(堆)
java·算法·leetcode
极客先躯39 分钟前
高级java每日一道面试题-2025年7月17日-基础篇[LangChain4j]-如何实现模型的负载均衡和故障转移?
java·langchain·负载均衡·重试机制·负载均衡实现·故障转移实现·多级降级
何中应42 分钟前
使用jvisualvm提示“内存不足”
java·jvm·后端
何中应43 分钟前
如何手动生成一个JVM内存溢出文件
java·jvm·后端
小灵吖1 小时前
LangChain4j Tool(Function Call)
java·后端
Lxinccode1 小时前
AI编程(3) / claude code[3] : 更新apiKey
java·数据库·ai编程·claude code