使用docx4j将Word文档转换为PDF

使用 docx4j 实现 DOCX 转 PDF,核心是通过 XSL-FO + Apache FOP 进行格式转换。以下是完整、可直接运行的方案(Maven + Java)。

一、核心依赖(Maven)

需引入 docx4j-core 和 PDF 导出模块 docx4j-export-fo

xml 复制代码
<dependencies>
    <!-- docx4j 核心库 -->
    <dependency>
        <groupId>org.docx4j</groupId>
        <artifactId>docx4j-core</artifactId>
        <version>11.5.4</version>
    </dependency>
    <!-- FO 导出(转PDF必需) -->
    <dependency>
        <groupId>org.docx4j</groupId>
        <artifactId>docx4j-export-fo</artifactId>
        <version>11.5.4</version>
    </dependency>
    <!-- JAXB 实现(JDK 9+ 必须显式引入) -->
    <dependency>
        <groupId>org.docx4j</groupId>
        <artifactId>docx4j-JAXB-ReferenceImpl</artifactId>
        <version>11.5.4</version>
    </dependency>
</dependencies>

二、最简转换代码(含中文支持)

java 复制代码
import org.docx4j.Docx4J;
import org.docx4j.fonts.IdentityPlusMapper;
import org.docx4j.fonts.Mapper;
import org.docx4j.fonts.PhysicalFonts;
import org.docx4j.openpackaging.packages.WordprocessingMLPackage;

import java.io.File;
import java.io.FileOutputStream;
import java.io.OutputStream;

public class DocxToPdfConverter {

    public static void convert(String docxPath, String pdfPath) throws Exception {
        // 1. 加载 DOCX 文件
        WordprocessingMLPackage pkg = WordprocessingMLPackage.load(new File(docxPath));

        // 2. 配置字体映射(解决中文乱码/方框问题)
        Mapper fontMapper = new IdentityPlusMapper();
        // 自动扫描系统字体
        PhysicalFonts.discoverPhysicalFonts();
        
        // 常用中文字体映射(Windows/Linux通用)
        fontMapper.put("宋体", PhysicalFonts.get("SimSun"));
        fontMapper.put("微软雅黑", PhysicalFonts.get("Microsoft YaHei"));
        fontMapper.put("黑体", PhysicalFonts.get("SimHei"));
        fontMapper.put("楷体", PhysicalFonts.get("KaiTi"));
        fontMapper.put("隶书", PhysicalFonts.get("LiSu"));

        pkg.setFontMapper(fontMapper);

        // 3. 转换并输出 PDF
        try (OutputStream os = new FileOutputStream(pdfPath)) {
            // FLAG_EXPORT_PREFER_XSL:兼容性最好
            Docx4J.toPDF(pkg, os);
        }
    }

    // 测试
    public static void main(String[] args) throws Exception {
        convert("input.docx", "output.pdf");
        System.out.println("转换完成");
    }
}

三、测试结果

  1. 原始文档
  1. 转换效果

四、结论

  1. 格式兼容性问题比较多,简单文档可以使用,兼容性要求高的情况下,建议放弃
  2. 由于不能预知要转换的文档中使用了哪些中文字体,可能出现###,这个问题比较严重
相关推荐
贫民窟的勇敢爷们1 小时前
SpringBoot整合AOP切面编程实战,实现日志统一记录+接口权限校验
java·spring boot·spring
AC赳赳老秦2 小时前
供应链专员提效:OpenClaw自动跟踪物流信息、更新库存数据,异常自动提醒
java·大数据·服务器·数据库·人工智能·自动化·openclaw
迈巴赫车主2 小时前
Java基础:list、set、map一遍过
java·开发语言
灵犀学长3 小时前
基于 Spring ThreadPoolTaskScheduler + CronTrigger 实现的动态定时任务调度系统
java·数据库·spring
好家伙VCC4 小时前
【无标题】
java
小碗羊肉5 小时前
【JavaWeb | 第十一篇】文件上传(本地&阿里云OSS)
java·阿里云·servlet
吾疾唯君医5 小时前
Java SpringBoot集成积木报表实操记录
java·spring boot·spring·导出excel·积木报表·数据文件下载
Byron Loong5 小时前
【c++】为什么有了dll和.h,还需要包含lib
java·开发语言·c++
hexu_blog6 小时前
vue+java实现图片批量压缩
java·前端·vue.js
头歌实践平台6 小时前
Hadoop开发环境搭建
java·大数据·hadoop