Java 读取TIFF JPEG GIF PNG PDF

Java 读取TIFF JPEG GIF PNG PDF

本文解决方法基于开源 tesseract

  1. 下载适合自己系统版本的tesseract官网链接https://digi.bib.uni-mannheim.de/tesseract/

2. 下载之后安装,安装的时候选择选择语言包,我选择了中文和英文

  1. 如官网说明 Windows本机库是用Visual Studio构建的 需要依赖 Visual C++ 2015-2022 Redistributable Packages. 如果在window 上运行的话需要下载且安装。下载地址https://learn.microsoft.com/en-US/cpp/windows/latest-supported-vc-redist?view=msvc-170

    选择下载合适的版本

不安装可能会报错

c 复制代码
 exception in thread "main" java.lang.unsatisfiedlinkerror: 找不到指定的模块。

安装后需要重启电脑

  1. 写几行代码尝试读取图片中的文字
java 复制代码
    public static void main(String[] args) {
        
        Tesseract tesseract = new Tesseract();
        // 读取中文
       tesseract.setLanguage("chi_sim");

        try {
			// 安装tessdata 的路径
           tesseract.setDatapath("D:\\Software\\tessdata");

                     BufferedImage image = ImageIO.read(new File(path));

            // 要读取的文件
            String text = tesseract.doOCR(image);

            
            System.out.print(text);
        }
        catch (TesseractException e) {
            e.printStackTrace();
        }
    }

R-C.jpg 图片

运行的结果如下:

相关推荐
zzb15802 小时前
RAG from Scratch-优化-query
java·数据库·人工智能·后端·spring·mybatis
V搜xhliang02463 小时前
机器人建模(URDF)与仿真配置
大数据·人工智能·深度学习·机器学习·自然语言处理·机器人
只说证事3 小时前
学数控的中专生,如何规划自己的考证路线?
机器学习
wuqingshun3141593 小时前
如何停止一个正在退出的线程
java·开发语言·jvm
lisw053 小时前
基于图像的恶意软件分类方法!
人工智能·机器学习
Barkamin4 小时前
队列的实现(Java)
java·开发语言
Alsian4 小时前
Day43 随机张量与广播机制
人工智能·深度学习·神经网络·机器学习
骇客野人4 小时前
自己手搓磁盘清理工具(JAVA版)
java·开发语言
J2虾虾4 小时前
在SpringBoot中使用Druid
java·spring boot·后端·druid
清风徐来QCQ4 小时前
Java笔试总结一
java·开发语言