[解决方案] Word转PDF

背景:

之前做过一些pdf导出, 客户提了一个特别急的需求, 要求根据一个模版跟一个csv的数据源, 批量生成PDF, 因为之前用过FOP, 知道调整样式需要特别长的时间, 这个需求又特别急, 所以寻找了一个其他的方案。

优点:

生成快捷,代码简单, 样式依赖模版,所见即所得

缺点:

模版难以调整

思路:

既然已经放弃FOP,那么就直接从模版生成新的word文档, 并且将word文档直接导出

第一版思路:

复制代码
<dependency>
      <groupId>org.docx4j</groupId>
      <artifactId>docx4j-core</artifactId>
      <version>8.3.9</version>
    </dependency> <!-- :contentReference[oaicite:0]{index=0} -->

    <!-- 内置 MOXy JAXB 实现 -->
    <dependency>
      <groupId>org.docx4j</groupId>
      <artifactId>docx4j-JAXB-MOXy</artifactId>
      <version>8.3.9</version>
    </dependency> <!-- :contentReference[oaicite:1]{index=1} -->

<!--    &lt;!&ndash; FO 导出,用于生成 XSL-FO &ndash;&gt;-->
    <dependency>
      <groupId>org.docx4j</groupId>
      <artifactId>docx4j-export-fo</artifactId>
      <version>8.3.9</version>
    </dependency> <!-- :contentReference[oaicite:2]{index=2} -->


public static void main(String[] args) throws Exception {

        // 1. 加载模板
        InputStream tpl = Word2PDF.class
                .getResourceAsStream("/template.docx");
        if (tpl == null) {
            throw new RuntimeException("未找到模板 template.docx");
        }

        //这部分非必须, 是为了多次导出,不重复读模版
        byte[] template = tpl.readAllBytes();

        // 2. 准备多条替换数据
        List<Map<String,String>> dataList = new ArrayList<>();
        Map<String,String> maps = new HashMap<>();

        maps.put("firstName","Alice");
        maps.put("context","测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测试测");
        maps.put("lastName","Wang");
        maps.put("date","2025-05-20");
        dataList.add(maps);
        maps = new HashMap<>();
        maps.put("firstName","Bob");
        maps.put("lastName","Li");
        maps.put("date","2025-05-21");

        dataList.add(maps);
        maps = new HashMap<>();
        maps.put("firstName","Carol");
        maps.put("lastName","Zhang");
        maps.put("date","2025-05-22");
        dataList.add(maps);


        // 3. 循环生成
        for (Map<String,String> row : dataList) {
            // 3.1 重新加载模板
            WordprocessingMLPackage pkg;
            try (InputStream tplStream = new ByteArrayInputStream(template)) {
                pkg = WordprocessingMLPackage.load(tplStream);
            }

            // 3.2 执行替换 (${key})
            MainDocumentPart mdp = pkg.getMainDocumentPart();
            mdp.variableReplace(row);
            // 替换 ${firstName}、${lastName}、${date} :contentReference[oaicite:2]{index=2}

            // 3.3 保存为 DOCX
            String name = row.get("firstName");
            String docxPath = "/Users/Documents/" + name + ".docx";
            pkg.save(new File(docxPath));

            try(OutputStream os = new FileOutputStream("/Users/Documents/" + name + ".pdf"))  {
                Docx4J.toPDF(pkg, os);
            }
        }

    }

这种方式全部依赖docx4j的jar包,进行导出。

缺点, 当模版有复杂模型,比如侧边栏时这种方式是无法导出的, 在网上找到的解决方案也是无效的。可能是因为JDK版本的升级。

版本2:

上面代码的逻辑一样,额外使用了documents4j的jar

复制代码
<dependency>
      <groupId>org.docx4j</groupId>
      <artifactId>docx4j-core</artifactId>
      <version>8.3.9</version>
    </dependency> <!-- :contentReference[oaicite:0]{index=0} -->

    <!-- 内置 MOXy JAXB 实现 -->
    <dependency>
      <groupId>org.docx4j</groupId>
      <artifactId>docx4j-JAXB-MOXy</artifactId>
      <version>8.3.9</version>
    </dependency> <!-- :contentReference[oaicite:1]{index=1} -->

<!--    &lt;!&ndash; FO 导出,用于生成 XSL-FO &ndash;&gt;-->
    <dependency>
      <groupId>org.docx4j</groupId>
      <artifactId>docx4j-export-fo</artifactId>
      <version>8.3.9</version>
    </dependency> <!-- :contentReference[oaicite:2]{index=2} -->

//转化为PDF的代码使用

//声明转换器,可重用
IConverter converter = LocalConverter.builder()
                        .baseFolder(new File(targetPath))
                        .workerPool(5,15,30, TimeUnit.SECONDS)
                        .processTimeout (60, TimeUnit.SECONDS)
                        .build();
//声明 转换, 最后一步有schedule excute 两种写法, excute是直接生成,结果是boolean,是单条生成的,这种是为了批量运行
Future<Boolean> future = converter
                        .convert(word)
                        .as(DocumentType.MS_WORD)
                        .to(new File(wordName + ".pdf"))
                        .as(DocumentType.PDF)
                        .schedule();


//对应 schedule的运行
future.get();

这种方式可以达成所见即所得。

PS:

之前提出了模版难以修改,是因为模版中要使用{替换名称}的方式, 但是word有时会自动截断一个字符串, 导致实际上变成了{替 换名称 }的样式, 需要多改几次试下,连续输入试一下。

有一种比较简单的方式,就是将word文件的后缀名改成zip ,然后拿出document.xml 可以在这个里面直接改,名称改回后记得打开看是否报错, 如果报错,另存一下,就可以去掉报错。

相关推荐
百事牛科技5 天前
保护文档安全:PDF限制功能详解与实操
windows·pdf
开开心心就好5 天前
安卓开源应用,超时提醒紧急人护独居安全
windows·决策树·计算机视觉·pdf·计算机外设·excel·动态规划
Felicia-侧听6 天前
如何统一PDF页面宽度?统一pdf宽度的2种方法
pdf·pdf宽度统一
开开心心_Every6 天前
音频格式互转工具,支持Mp3ApeWavFlac互转
linux·运维·服务器·typescript·edge·pdf·asp.net
2501_930707786 天前
如何使用C#代码从 PDF 中提取表格并另存为Excel文件
pdf·excel
悟乙己6 天前
实施手册:如何自己构建财务PDF文件内容抽取引擎
pdf
xin_yao_xin6 天前
PDF 转 图片(python)
python·pdf
汤姆百宝箱7 天前
2026新版教材电子课本1-9年级新教材PDF(完整电子版下载)
pdf·小学课本·初中课本·电子教材·电子课本·2026新教材·2026新课本
开开心心就好7 天前
内存清理软件灵活设置,自动阈值快捷键清
运维·服务器·windows·pdf·harmonyos·risc-v·1024程序员节
海兰7 天前
【接上篇】多格式文档支持扩展方案(PDF_Word_Excel)
pdf·word·excel