Java PDFBox 提取页数、PDF转图片

PDF 提取

使用Apache 的pdfbox组件对PDF文件解析读取和转图片。

Maven 依赖

导入下面的maven依赖:

xml 复制代码
<dependency>
	<groupId>org.apache.pdfbox</groupId>
	<artifactId>pdfbox</artifactId>
    <version>2.0.30</version>
</dependency>

读取总页数 和 转图片

dpi越大转换后越清晰,相对转换速度越慢,建议取值500-800。

图片类型可以选择jpg或者png:

  1. jpg图片大小比png要小很多
  2. jpg图片转换速度比png快
  3. 相同dpi jpg和png清晰度差别不大
java 复制代码
package tech.pplus.common.util;

import lombok.extern.slf4j.Slf4j;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.springframework.web.util.UriComponentsBuilder;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.net.URL;
import java.util.LinkedList;
import java.util.List;

/**
 * @author zl
 * @date 2024-01-24
 */
@Slf4j
public class PDFUtil {
    /**
     * dpi越大转换后越清晰,相对转换速度越慢
     */
    private static final Integer DPI = 500;
    private static final String IMG_SUFFIX = "jpg";

    /**
     * pdf 一页切分 一张图片
     *
     * @param url pdf文件url
     * @param dstDir 图片输出目录
     * @return
     */
    public static List<File> splitPage(String url, String dstDir) {
        dstDir = dstDir.endsWith(File.separator) ? dstDir : dstDir + File.separator;
        List<File> files = new LinkedList<>();
        try (InputStream is = new URL(url).openConnection().getInputStream();
             PDDocument document = PDDocument.load(is)) {
             //获取总页数
            int numberOfPages = document.getNumberOfPages();

            PDFRenderer renderer = new PDFRenderer(document);
            //提取url文件名称
            String path = UriComponentsBuilder.fromHttpUrl(url).build().getPath();
            String fileName = path.substring(path.lastIndexOf("/") + 1);
            for (int i = 0; i < numberOfPages; i++) {
                File dstFile = new File(dstDir + fileName + String.format(".page%d.%d.%s", i + 1, DPI, IMG_SUFFIX));
                //把页面转图片
                BufferedImage image = renderer.renderImageWithDPI(i, DPI);
                ImageIO.write(image, IMG_SUFFIX, dstFile);
                files.add(dstFile);
            }

        } catch (IOException e) {
            log.error("PDF分割异常,url={},destDir={},error={}", url, dstDir,e.getMessage(), e);
        }
        return files;
    }
}

测试参数:

  1. pdfUrl:https://s3.us-west-1.amazonaws.com/tax.withtutti.com/test/upload/202401/83610d194d2d48498afa9451e39b198d.pdf
  2. dstDir: /tmp

输出结果:


相关推荐
Flittly16 小时前
【AgentScope Java新手村系列】(16)从RAG到多路检索
java·spring boot·spring
小兔崽子去哪了16 小时前
Java 生成二维码解决方案
java·后端
人活一口气21 小时前
从JVM调优到MCP协议:Java全栈技术体系深度总结与企业级架构实践
java·spring boot
NE_STOP1 天前
Vibe Coding -- 完整项目案例实操
java
荣码1 天前
GraphRAG:普通RAG只能回答"点"的问题,我踩了4个坑才搞懂
java·python
SimonKing1 天前
Google第三方授权登录
java·后端·程序员
明月光8181 天前
从一行 @Builder 说起:重新拾起 Java 的 Lombok、注解与 Builder 模式
java
考虑考虑1 天前
Mybatis实现批量插入
java·后端·mybatis
咖啡八杯1 天前
GoF设计模式——中介者模式
java·后端·spring·设计模式
青石路2 天前
记一次多JDK版本问题的排查,一坑套一坑,差点没爬上来
java