Java PDFBox 提取页数、PDF转图片

PDF 提取

使用Apache 的pdfbox组件对PDF文件解析读取和转图片。

Maven 依赖

导入下面的maven依赖:

xml 复制代码
<dependency>
	<groupId>org.apache.pdfbox</groupId>
	<artifactId>pdfbox</artifactId>
    <version>2.0.30</version>
</dependency>

读取总页数 和 转图片

dpi越大转换后越清晰,相对转换速度越慢,建议取值500-800。

图片类型可以选择jpg或者png:

  1. jpg图片大小比png要小很多
  2. jpg图片转换速度比png快
  3. 相同dpi jpg和png清晰度差别不大
java 复制代码
package tech.pplus.common.util;

import lombok.extern.slf4j.Slf4j;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.springframework.web.util.UriComponentsBuilder;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.net.URL;
import java.util.LinkedList;
import java.util.List;

/**
 * @author zl
 * @date 2024-01-24
 */
@Slf4j
public class PDFUtil {
    /**
     * dpi越大转换后越清晰,相对转换速度越慢
     */
    private static final Integer DPI = 500;
    private static final String IMG_SUFFIX = "jpg";

    /**
     * pdf 一页切分 一张图片
     *
     * @param url pdf文件url
     * @param dstDir 图片输出目录
     * @return
     */
    public static List<File> splitPage(String url, String dstDir) {
        dstDir = dstDir.endsWith(File.separator) ? dstDir : dstDir + File.separator;
        List<File> files = new LinkedList<>();
        try (InputStream is = new URL(url).openConnection().getInputStream();
             PDDocument document = PDDocument.load(is)) {
             //获取总页数
            int numberOfPages = document.getNumberOfPages();

            PDFRenderer renderer = new PDFRenderer(document);
            //提取url文件名称
            String path = UriComponentsBuilder.fromHttpUrl(url).build().getPath();
            String fileName = path.substring(path.lastIndexOf("/") + 1);
            for (int i = 0; i < numberOfPages; i++) {
                File dstFile = new File(dstDir + fileName + String.format(".page%d.%d.%s", i + 1, DPI, IMG_SUFFIX));
                //把页面转图片
                BufferedImage image = renderer.renderImageWithDPI(i, DPI);
                ImageIO.write(image, IMG_SUFFIX, dstFile);
                files.add(dstFile);
            }

        } catch (IOException e) {
            log.error("PDF分割异常,url={},destDir={},error={}", url, dstDir,e.getMessage(), e);
        }
        return files;
    }
}

测试参数:

  1. pdfUrl:https://s3.us-west-1.amazonaws.com/tax.withtutti.com/test/upload/202401/83610d194d2d48498afa9451e39b198d.pdf
  2. dstDir: /tmp

输出结果:


相关推荐
xyliiiiiL4 分钟前
一文总结常见项目排查
java·服务器·数据库
shaoing6 分钟前
MySQL 错误 报错:Table ‘performance_schema.session_variables’ Doesn’t Exist
java·开发语言·数据库
inxunoffice21 分钟前
批量将文本文件转换为 Word/PDF/Excel/图片等其它格式
pdf·word·excel
腥臭腐朽的日子熠熠生辉1 小时前
解决maven失效问题(现象:maven中只有jdk的工具包,没有springboot的包)
java·spring boot·maven
ejinxian1 小时前
Spring AI Alibaba 快速开发生成式 Java AI 应用
java·人工智能·spring
杉之1 小时前
SpringBlade 数据库字段的自动填充
java·笔记·学习·spring·tomcat
圈圈编码1 小时前
Spring Task 定时任务
java·前端·spring
俏布斯2 小时前
算法日常记录
java·算法·leetcode
27669582922 小时前
美团民宿 mtgsig 小程序 mtgsig1.2 分析
java·python·小程序·美团·mtgsig·mtgsig1.2·美团民宿
爱的叹息2 小时前
Java 连接 Redis 的驱动(Jedis、Lettuce、Redisson、Spring Data Redis)分类及对比
java·redis·spring