Java PDFBox 提取页数、PDF转图片

PDF 提取

使用Apache 的pdfbox组件对PDF文件解析读取和转图片。

Maven 依赖

导入下面的maven依赖:

xml 复制代码
<dependency>
	<groupId>org.apache.pdfbox</groupId>
	<artifactId>pdfbox</artifactId>
    <version>2.0.30</version>
</dependency>

读取总页数 和 转图片

dpi越大转换后越清晰,相对转换速度越慢,建议取值500-800。

图片类型可以选择jpg或者png:

  1. jpg图片大小比png要小很多
  2. jpg图片转换速度比png快
  3. 相同dpi jpg和png清晰度差别不大
java 复制代码
package tech.pplus.common.util;

import lombok.extern.slf4j.Slf4j;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.springframework.web.util.UriComponentsBuilder;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.net.URL;
import java.util.LinkedList;
import java.util.List;

/**
 * @author zl
 * @date 2024-01-24
 */
@Slf4j
public class PDFUtil {
    /**
     * dpi越大转换后越清晰,相对转换速度越慢
     */
    private static final Integer DPI = 500;
    private static final String IMG_SUFFIX = "jpg";

    /**
     * pdf 一页切分 一张图片
     *
     * @param url pdf文件url
     * @param dstDir 图片输出目录
     * @return
     */
    public static List<File> splitPage(String url, String dstDir) {
        dstDir = dstDir.endsWith(File.separator) ? dstDir : dstDir + File.separator;
        List<File> files = new LinkedList<>();
        try (InputStream is = new URL(url).openConnection().getInputStream();
             PDDocument document = PDDocument.load(is)) {
             //获取总页数
            int numberOfPages = document.getNumberOfPages();

            PDFRenderer renderer = new PDFRenderer(document);
            //提取url文件名称
            String path = UriComponentsBuilder.fromHttpUrl(url).build().getPath();
            String fileName = path.substring(path.lastIndexOf("/") + 1);
            for (int i = 0; i < numberOfPages; i++) {
                File dstFile = new File(dstDir + fileName + String.format(".page%d.%d.%s", i + 1, DPI, IMG_SUFFIX));
                //把页面转图片
                BufferedImage image = renderer.renderImageWithDPI(i, DPI);
                ImageIO.write(image, IMG_SUFFIX, dstFile);
                files.add(dstFile);
            }

        } catch (IOException e) {
            log.error("PDF分割异常,url={},destDir={},error={}", url, dstDir,e.getMessage(), e);
        }
        return files;
    }
}

测试参数:

  1. pdfUrl:https://s3.us-west-1.amazonaws.com/tax.withtutti.com/test/upload/202401/83610d194d2d48498afa9451e39b198d.pdf
  2. dstDir: /tmp

输出结果:


相关推荐
松仔log2 小时前
JetPack——Paging3+Room
android·java·zoom
Lei活在当下7 小时前
先用起来,再理解,关于协程Coroutine应该知道的事
android·java·jvm
Java爱好狂.7 小时前
Java程序员体系化学习路线(2026最新版)
java·后端·java面试·java架构师·java程序员·java八股文·java学习路线
tongluowan0078 小时前
以ReentrantLock为例解释AQS的工作流程
java·模板方法模式·aqs·reentrantlock
身如柳絮随风扬9 小时前
Java 项目打包与部署完全指南:JAR vs WAR,从构建到运行
java·firefox·jar
云烟成雨TD9 小时前
Spring AI Alibaba 1.x 系列【62】时光旅行(Time-Travel)
java·人工智能·spring
浩少7029 小时前
【无标题】
java·开发语言
一棵白菜9 小时前
java 学习
java
卷毛的技术笔记10 小时前
Java后端硬核实战:用Spring AI Alibaba+Redis给LLM装上“超强记忆中枢”
java·人工智能·redis·后端·spring·ai·系统架构
AKA__Zas11 小时前
初识多线程(3.0)
java·开发语言·学习方法