使用docx4j将Word文档转换为PDF

使用 docx4j 实现 DOCX 转 PDF,核心是通过 XSL-FO + Apache FOP 进行格式转换。以下是完整、可直接运行的方案(Maven + Java)。

一、核心依赖(Maven)

需引入 docx4j-core 和 PDF 导出模块 docx4j-export-fo

xml 复制代码
<dependencies>
    <!-- docx4j 核心库 -->
    <dependency>
        <groupId>org.docx4j</groupId>
        <artifactId>docx4j-core</artifactId>
        <version>11.5.4</version>
    </dependency>
    <!-- FO 导出(转PDF必需) -->
    <dependency>
        <groupId>org.docx4j</groupId>
        <artifactId>docx4j-export-fo</artifactId>
        <version>11.5.4</version>
    </dependency>
    <!-- JAXB 实现(JDK 9+ 必须显式引入) -->
    <dependency>
        <groupId>org.docx4j</groupId>
        <artifactId>docx4j-JAXB-ReferenceImpl</artifactId>
        <version>11.5.4</version>
    </dependency>
</dependencies>

二、最简转换代码(含中文支持)

java 复制代码
import org.docx4j.Docx4J;
import org.docx4j.fonts.IdentityPlusMapper;
import org.docx4j.fonts.Mapper;
import org.docx4j.fonts.PhysicalFonts;
import org.docx4j.openpackaging.packages.WordprocessingMLPackage;

import java.io.File;
import java.io.FileOutputStream;
import java.io.OutputStream;

public class DocxToPdfConverter {

    public static void convert(String docxPath, String pdfPath) throws Exception {
        // 1. 加载 DOCX 文件
        WordprocessingMLPackage pkg = WordprocessingMLPackage.load(new File(docxPath));

        // 2. 配置字体映射(解决中文乱码/方框问题)
        Mapper fontMapper = new IdentityPlusMapper();
        // 自动扫描系统字体
        PhysicalFonts.discoverPhysicalFonts();
        
        // 常用中文字体映射(Windows/Linux通用)
        fontMapper.put("宋体", PhysicalFonts.get("SimSun"));
        fontMapper.put("微软雅黑", PhysicalFonts.get("Microsoft YaHei"));
        fontMapper.put("黑体", PhysicalFonts.get("SimHei"));
        fontMapper.put("楷体", PhysicalFonts.get("KaiTi"));
        fontMapper.put("隶书", PhysicalFonts.get("LiSu"));

        pkg.setFontMapper(fontMapper);

        // 3. 转换并输出 PDF
        try (OutputStream os = new FileOutputStream(pdfPath)) {
            // FLAG_EXPORT_PREFER_XSL:兼容性最好
            Docx4J.toPDF(pkg, os);
        }
    }

    // 测试
    public static void main(String[] args) throws Exception {
        convert("input.docx", "output.pdf");
        System.out.println("转换完成");
    }
}

三、测试结果

  1. 原始文档
  1. 转换效果

四、结论

  1. 格式兼容性问题比较多,简单文档可以使用,兼容性要求高的情况下,建议放弃
  2. 由于不能预知要转换的文档中使用了哪些中文字体,可能出现###,这个问题比较严重
相关推荐
wang09075 小时前
自己动手写一个spring之IOC_2
java·后端·spring
来杯@Java6 小时前
学生选课管理系统(基于springboot+vue前后端分离的项目)计算机毕业设计java
java·spring boot·spring·vue·毕业设计·maven·mybatis
不知名的老吴7 小时前
线程的生命周期之线程“插队“
java·开发语言·python
ANnianStriver7 小时前
PetLumina-02-后端开发与前后端联调
java·ai·sa-token
杨了个杨89827 小时前
Keepalived + Nginx + HAProxy 高可用架构部署实战案例
java·nginx·架构
马士兵教育9 小时前
Java还有前景吗?Java+AI大模型学习路线及项目?
java·人工智能·python·学习·机器学习
snow@li10 小时前
Java:理解 Gradle / 后端项目的管家 / 打包SpringBoot 应用 / 完成编译、下载依赖、运行测试、打包 JAR/WAR / 速查表
java
云烟成雨TD10 小时前
Spring AI 1.x 系列【57】动态工具发现:Tool Search Tool
java·人工智能·spring
zfoo-framework10 小时前
[修改代码使用]codex官方app中使用中转(不需要cc-switch) 1.config.toml 2.sk方式登录
java