使用docx4j将Word文档转换为PDF

使用 docx4j 实现 DOCX 转 PDF,核心是通过 XSL-FO + Apache FOP 进行格式转换。以下是完整、可直接运行的方案(Maven + Java)。

一、核心依赖(Maven)

需引入 docx4j-core 和 PDF 导出模块 docx4j-export-fo

xml 复制代码
<dependencies>
    <!-- docx4j 核心库 -->
    <dependency>
        <groupId>org.docx4j</groupId>
        <artifactId>docx4j-core</artifactId>
        <version>11.5.4</version>
    </dependency>
    <!-- FO 导出(转PDF必需) -->
    <dependency>
        <groupId>org.docx4j</groupId>
        <artifactId>docx4j-export-fo</artifactId>
        <version>11.5.4</version>
    </dependency>
    <!-- JAXB 实现(JDK 9+ 必须显式引入) -->
    <dependency>
        <groupId>org.docx4j</groupId>
        <artifactId>docx4j-JAXB-ReferenceImpl</artifactId>
        <version>11.5.4</version>
    </dependency>
</dependencies>

二、最简转换代码(含中文支持)

java 复制代码
import org.docx4j.Docx4J;
import org.docx4j.fonts.IdentityPlusMapper;
import org.docx4j.fonts.Mapper;
import org.docx4j.fonts.PhysicalFonts;
import org.docx4j.openpackaging.packages.WordprocessingMLPackage;

import java.io.File;
import java.io.FileOutputStream;
import java.io.OutputStream;

public class DocxToPdfConverter {

    public static void convert(String docxPath, String pdfPath) throws Exception {
        // 1. 加载 DOCX 文件
        WordprocessingMLPackage pkg = WordprocessingMLPackage.load(new File(docxPath));

        // 2. 配置字体映射(解决中文乱码/方框问题)
        Mapper fontMapper = new IdentityPlusMapper();
        // 自动扫描系统字体
        PhysicalFonts.discoverPhysicalFonts();
        
        // 常用中文字体映射(Windows/Linux通用)
        fontMapper.put("宋体", PhysicalFonts.get("SimSun"));
        fontMapper.put("微软雅黑", PhysicalFonts.get("Microsoft YaHei"));
        fontMapper.put("黑体", PhysicalFonts.get("SimHei"));
        fontMapper.put("楷体", PhysicalFonts.get("KaiTi"));
        fontMapper.put("隶书", PhysicalFonts.get("LiSu"));

        pkg.setFontMapper(fontMapper);

        // 3. 转换并输出 PDF
        try (OutputStream os = new FileOutputStream(pdfPath)) {
            // FLAG_EXPORT_PREFER_XSL:兼容性最好
            Docx4J.toPDF(pkg, os);
        }
    }

    // 测试
    public static void main(String[] args) throws Exception {
        convert("input.docx", "output.pdf");
        System.out.println("转换完成");
    }
}

三、测试结果

  1. 原始文档
  1. 转换效果

四、结论

  1. 格式兼容性问题比较多,简单文档可以使用,兼容性要求高的情况下,建议放弃
  2. 由于不能预知要转换的文档中使用了哪些中文字体,可能出现###,这个问题比较严重
相关推荐
葳_人生_蕤2 小时前
hot100——双指针法专题
java·前端·数据库
chushiyunen2 小时前
llama-index 数据清洗示例、数据清洗等
java·大数据·llama
zhangphil2 小时前
Kotlin高阶函数作为参数与Java普通接口interface等效性
java·kotlin
2601_949818092 小时前
记录 idea 启动 tomcat 控制台输出乱码问题解决
java·tomcat·intellij-idea
爱丽_2 小时前
缓存一致性:Cache Aside、双删/延迟双删、穿透/击穿/雪崩与 CDC
java·spring·缓存
majingming1232 小时前
接口的嵌入式实现
java·后端·spring
eEKI DAND2 小时前
Spring Boot 3.3.4 升级导致 Logback 之前回滚策略配置不兼容问题解决
java·spring boot·logback
-Da-2 小时前
【ai应用开发日记】通用未注入Bean AI提示词
java·数据库·人工智能·spring boot·sqlserver
黑马源码库miui520862 小时前
JAVA国际版同城上门服务上门送水桶装水配送源码同城上门配送系统源码支持Android+IOS+H5
android·java·ios