合并PDF出现OOM异常

  • 优化方法一:使用PdfSmartCopy类代替PdfCopy类。这个类可以在合并PDF文件时,检测并消除重复的对象,从而减少内存的占用。您可以参考以下代码示例:
java 复制代码
//创建一个Document对象
Document document = new Document();

//创建一个PdfSmartCopy对象
PdfSmartCopy copy = new PdfSmartCopy(document, new FileOutputStream("output.pdf"));

//打开Document对象
document.open();

//创建一个PdfReader对象
PdfReader reader = null;

//遍历要合并的PDF文件
for (String file : files) {
    //加载PDF文件
    reader = new PdfReader(file);

    //获取PDF文件的总页数
    int n = reader.getNumberOfPages();

    //遍历每一页,添加到PdfSmartCopy对象中
    for (int page = 0; page < n;) {
        copy.addPage(copy.getImportedPage(reader, ++page));
    }
}

//关闭PdfReader对象
reader.close();

//关闭Document对象
document.close();

//创建一个PdfStamper对象
PdfStamper stamper = new PdfStamper(new PdfReader("output.pdf"), new FileOutputStream("output.pdf"));

//获取总页数
int pageCount = stamper.getReader().getNumberOfPages();

//遍历每一页,添加页码
for (int i = 1; i <= pageCount; i++) {
    //获取当前页
    PdfContentByte content = stamper.getOverContent(i);

    //设置字体和颜色
    content.setFontAndSize(BaseFont.createFont(BaseFont.HELVETICA, BaseFont.WINANSI, BaseFont.NOT_EMBEDDED), 12);
    content.setRGBColorFill(0, 0, 0);

    //获取当前页的宽度和高度
    Rectangle pageSize = stamper.getReader().getPageSize(i);
    float width = pageSize.getWidth();
    float height = pageSize.getHeight();

    //计算页码的位置
    float x = width / 2;
    float y = 10;

    //添加页码
    content.beginText();
    content.showTextAligned(PdfContentByte.ALIGN_CENTER, "第" + i + "页,共" + pageCount + "页", x, y, 0);
    content.endText();
}

//关闭PdfStamper对象
stamper.close();
  • 优化方法二:使用PdfWriter类代替PdfCopy类。这个类可以在合并PDF文件时,直接将每一页写入到输出流中,而不需要将整个文档加载到内存中。可以参考以下代码示例:
java 复制代码
//创建一个Document对象
Document document = new Document();

//创建一个PdfWriter对象
PdfWriter writer = PdfWriter.getInstance(document, new FileOutputStream("output.pdf"));

//打开Document对象
document.open();

//创建一个PdfImportedPage对象
PdfImportedPage page = null;

//创建一个PdfReader对象
PdfReader reader = null;

//遍历要合并的PDF文件
for (String file : files) {
    //加载PDF文件
    reader = new PdfReader(file);

    //获取PDF文件的总页数
    int n = reader.getNumberOfPages();

    //遍历每一页,添加到PdfWriter对象中
    for (int i = 1; i <= n; i++) {
        //获取当前页的宽度和高度
        Rectangle pageSize = reader.getPageSizeWithRotation(i);
        float width = pageSize.getWidth();
        float height = pageSize.getHeight();

        //设置Document对象的页面大小
        document.setPageSize(pageSize);

        //创建一个新的页面
        document.newPage();

        //导入当前页
        page = writer.getImportedPage(reader, i);

        //将当前页添加到PdfWriter对象中
        writer.addPageDictEntry(PdfName.ROTATE, pageSize.getRotationAsPageDictEntry());
        writer.addDirectImageSimple(page);
        writer.getCurrentPage().add(page);

        //创建一个PdfContentByte对象
        PdfContentByte content = writer.getDirectContent();

        //设置字体和颜色
        content.setFontAndSize(BaseFont.createFont(BaseFont.HELVETICA, BaseFont.WINANSI, BaseFont.NOT_EMBEDDED), 12);
        content.setRGBColorFill(0, 0, 0);

        //计算页码的位置
        float x = width / 2;
        float y = 10;

        //添加页码
        content.beginText();
        content.showTextAligned(PdfContentByte.ALIGN_CENTER, "第" + i + "页,共" + pageCount + "页", x, y, 0);
        content.endText();
    }
}

//关闭PdfReader对象
reader.close();

//关闭Document对象
document.close();
  • 优化方法三:使用PdfReader类的partial和selectPages方法。这些方法可以在加载PDF文件时,只读取需要的页面,而不需要将整个文档加载到内存中。可以参考以下代码示例:
java 复制代码
//创建一个Document对象
Document document = new Document();

//创建一个PdfCopy对象
PdfCopy copy = new PdfCopy(document, new FileOutputStream("output.pdf"));

//打开Document对象
document.open();

//创建一个PdfReader对象
PdfReader reader = null;

//遍历要合并的PDF文件
for (String file : files) {
    //设置partial为true,只读取需要的页面
    reader = new PdfReader(new RandomAccessFileOrArray(file), null);
    reader.consolidateNamedDestinations();
    reader.partial = true;

    //获取PDF文件的总页数
    int n = reader.getNumberOfPages();

    //创建一个List对象,存储需要的页面
    List<Integer> pages = new ArrayList<Integer>();

    //遍历每一页,添加到List对象中
    for (int i = 1; i <= n; i++) {
        pages.add(i);
    }

    //使用selectPages方法,只选择需要的页面
    reader.selectPages(pages);

    //将选择的页面添加到PdfCopy对象中
    for (int i = 0; i < pages.size(); ) {
        copy.addPage(copy.getImportedPage(reader, ++i));
    }
}

//关闭PdfReader对象
reader.close();

//关闭Document对象
document.close();

//创建一个PdfStamper对象
PdfStamper stamper = new PdfStamper(new PdfReader("output.pdf"), new FileOutputStream("output.pdf"));

//获取总页数
int pageCount = stamper.getReader().getNumberOfPages();

//遍历每一页,添加页码
for (int i = 1; i <= pageCount; i++) {
    //获取当前页
    PdfContentByte content = stamper.getOverContent(i);

    //设置字体和颜色
    content.setFontAndSize(BaseFont.createFont(BaseFont.HELVETICA, BaseFont.WINANSI, BaseFont.NOT_EMBEDDED), 12);
    content.setRGBColorFill(0, 0, 0);

    //获取当前页的宽度和高度
    Rectangle pageSize = stamper.getReader().getPageSize(i);
    float width = pageSize.getWidth();
    float height = pageSize.getHeight();

    //计算页码的位置
    float x = width / 2;
    float y = 10;

    //添加页码
    content.beginText();
    content.showTextAligned(PdfContentByte.ALIGN_CENTER, "第" + i + "页,共" + pageCount + "页", x, y, 0);
    content.endText();
}

//关闭PdfStamper对象
stamper.close();

java - How to avoid OutOfMemoryError when merging PDFs using iText? - Stack Overflow

java - How to merge pdf files without loading all the documents in memory? - Stack Overflow

java - How to merge pdf files without loading all the documents in memory? - Stack Overflow

相关推荐
你不是我我5 小时前
【Java 开发日记】HTTP3 性能更好,为什么内网微服务依然多用 HTTP2?HTTP2 内网优势是什么?
java·开发语言·微服务
雪碧聊技术6 小时前
大模型爆火!Java后端如何抓住Agent全栈开发的风口
java·大模型·agent·全栈开发
逻辑驱动的ken7 小时前
Java高频面试场景题25
java·开发语言·深度学习·面试·职场和发展
AI人工智能+电脑小能手8 小时前
【大白话说Java面试题】【Java基础篇】第32题:Java的异常处理机制是什么
java·开发语言·后端·面试
爱吃土豆的马铃薯ㅤㅤㅤㅤㅤㅤㅤㅤㅤ9 小时前
通过java后端代码来实现给word内容补充格式文本内容控件,以及 设置控件的标记和标题
java·c#·word
無限進步D10 小时前
Java 面向对象高级 接口
java·开发语言
逸Y 仙X10 小时前
文章二十七:ElasticSearch ES查询模板(Search Template)高效复用实战
java·大数据·数据库·elasticsearch·搜索引擎·全文检索
二哈赛车手11 小时前
新人笔记---Spring AI的Advisor以及其底层机制讲解(涉及源码),包含一些遇见的Spring AI的Advisor缺陷问题的解决方案
java·人工智能·spring boot·笔记·spring
AC赳赳老秦11 小时前
接口测试自动化:用 OpenClaw 对接 Postman,实现批量回归测试、测试报告自动生成与推送
java·人工智能·python·算法·elasticsearch·deepseek·openclaw