[解决方案] Word转PDF

背景:

之前做过一些pdf导出, 客户提了一个特别急的需求, 要求根据一个模版跟一个csv的数据源, 批量生成PDF, 因为之前用过FOP, 知道调整样式需要特别长的时间, 这个需求又特别急, 所以寻找了一个其他的方案。

优点:

生成快捷,代码简单, 样式依赖模版,所见即所得

缺点:

模版难以调整

思路:

既然已经放弃FOP,那么就直接从模版生成新的word文档, 并且将word文档直接导出

第一版思路:

复制代码
<dependency>
      <groupId>org.docx4j</groupId>
      <artifactId>docx4j-core</artifactId>
      <version>8.3.9</version>
    </dependency> <!-- :contentReference[oaicite:0]{index=0} -->

    <!-- 内置 MOXy JAXB 实现 -->
    <dependency>
      <groupId>org.docx4j</groupId>
      <artifactId>docx4j-JAXB-MOXy</artifactId>
      <version>8.3.9</version>
    </dependency> <!-- :contentReference[oaicite:1]{index=1} -->

<!--    &lt;!&ndash; FO 导出,用于生成 XSL-FO &ndash;&gt;-->
    <dependency>
      <groupId>org.docx4j</groupId>
      <artifactId>docx4j-export-fo</artifactId>
      <version>8.3.9</version>
    </dependency> <!-- :contentReference[oaicite:2]{index=2} -->


public static void main(String[] args) throws Exception {

        // 1. 加载模板
        InputStream tpl = Word2PDF.class
                .getResourceAsStream("/template.docx");
        if (tpl == null) {
            throw new RuntimeException("未找到模板 template.docx");
        }

        //这部分非必须, 是为了多次导出,不重复读模版
        byte[] template = tpl.readAllBytes();

        // 2. 准备多条替换数据
        List<Map<String,String>> dataList = new ArrayList<>();
        Map<String,String> maps = new HashMap<>();

        maps.put("firstName","Alice");
        maps.put("context","测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测");
        maps.put("lastName","Wang");
        maps.put("date","2025-05-20");
        dataList.add(maps);
        maps = new HashMap<>();
        maps.put("firstName","Bob");
        maps.put("lastName","Li");
        maps.put("date","2025-05-21");

        dataList.add(maps);
        maps = new HashMap<>();
        maps.put("firstName","Carol");
        maps.put("lastName","Zhang");
        maps.put("date","2025-05-22");
        dataList.add(maps);


        // 3. 循环生成
        for (Map<String,String> row : dataList) {
            // 3.1 重新加载模板
            WordprocessingMLPackage pkg;
            try (InputStream tplStream = new ByteArrayInputStream(template)) {
                pkg = WordprocessingMLPackage.load(tplStream);
            }

            // 3.2 执行替换 (${key})
            MainDocumentPart mdp = pkg.getMainDocumentPart();
            mdp.variableReplace(row);
            // 替换 ${firstName}、${lastName}、${date} :contentReference[oaicite:2]{index=2}

            // 3.3 保存为 DOCX
            String name = row.get("firstName");
            String docxPath = "/Users/Documents/" + name + ".docx";
            pkg.save(new File(docxPath));

            try(OutputStream os = new FileOutputStream("/Users/Documents/" + name + ".pdf"))  {
                Docx4J.toPDF(pkg, os);
            }
        }

    }

这种方式全部依赖docx4j的jar包,进行导出。

缺点, 当模版有复杂模型,比如侧边栏时这种方式是无法导出的, 在网上找到的解决方案也是无效的。可能是因为JDK版本的升级。

版本2:

上面代码的逻辑一样,额外使用了documents4j的jar

复制代码
<dependency>
      <groupId>org.docx4j</groupId>
      <artifactId>docx4j-core</artifactId>
      <version>8.3.9</version>
    </dependency> <!-- :contentReference[oaicite:0]{index=0} -->

    <!-- 内置 MOXy JAXB 实现 -->
    <dependency>
      <groupId>org.docx4j</groupId>
      <artifactId>docx4j-JAXB-MOXy</artifactId>
      <version>8.3.9</version>
    </dependency> <!-- :contentReference[oaicite:1]{index=1} -->

<!--    &lt;!&ndash; FO 导出,用于生成 XSL-FO &ndash;&gt;-->
    <dependency>
      <groupId>org.docx4j</groupId>
      <artifactId>docx4j-export-fo</artifactId>
      <version>8.3.9</version>
    </dependency> <!-- :contentReference[oaicite:2]{index=2} -->

//转化为PDF的代码使用

//声明转换器,可重用
IConverter converter = LocalConverter.builder()
                        .baseFolder(new File(targetPath))
                        .workerPool(5,15,30, TimeUnit.SECONDS)
                        .processTimeout (60, TimeUnit.SECONDS)
                        .build();
//声明 转换, 最后一步有schedule excute 两种写法, excute是直接生成,结果是boolean,是单条生成的,这种是为了批量运行
Future<Boolean> future = converter
                        .convert(word)
                        .as(DocumentType.MS_WORD)
                        .to(new File(wordName + ".pdf"))
                        .as(DocumentType.PDF)
                        .schedule();


//对应 schedule的运行
future.get();

这种方式可以达成所见即所得。

PS:

之前提出了模版难以修改,是因为模版中要使用{替换名称}的方式, 但是word有时会自动截断一个字符串, 导致实际上变成了{替 换名称 }的样式, 需要多改几次试下,连续输入试一下。

有一种比较简单的方式,就是将word文件的后缀名改成zip ,然后拿出document.xml 可以在这个里面直接改,名称改回后记得打开看是否报错, 如果报错,另存一下,就可以去掉报错。

相关推荐
2601_9611940217 小时前
2026六级词汇PDF下载|大学英语六级单词表+音频PDF
windows·git·eclipse·pdf·github
蜡台1 天前
Uniapp 实现预览pdf 文件
pdf·uni-app·pdfh5
AI英德西牛仔1 天前
Claude 导出 pdf 颜色不一样怎么办,选用 AI 导出鸭优化格式转换,多维度落地修正 PDF 色彩失真问题
javascript·人工智能·ai·chatgpt·pdf·deepseek·ai导出鸭
南风微微吹1 天前
【专四】英语专业四级历年真题试卷及答案解析电子版PDF(2009-2025年)
pdf
SunnyDays10111 天前
Java 实现 PDF 转 PDF/A 和 PDF/A 转 PDF(超详细教程)
java·开发语言·pdf
dshudsnb1 天前
PDF转Word的3种方法(无乱码/批量/高精度教程)
pdf·word
2601_961194021 天前
2026四级词汇闪过电子版|高频词+真题词速记PDF
数据库·python·django·pdf·pygame
2601_961194021 天前
2026六级词汇资料电子版|大学英语六级核心词汇PDF
java·spring·eclipse·pdf·tomcat·hibernate
2601_961194021 天前
2026四级词汇表4500电子版|大学英语四级核心词汇PDF
pdf
2601_961194022 天前
2026初级会计实务公式总结大全|计算题公式手册PDF
java·spring·eclipse·pdf·tomcat·hibernate