【word多文档docx合并】

word多文档docx合并

一、背景

项目起源

需要将多个独立的Word文档合并成一个完整的文档。需要保留各个word的页面方向、纸张大小、页边距等复杂的页面布局,尽量保证word表格不变形,不失真

二、核心原理

  • word本身可以用压缩包工具解压
  • 核心内容在于解压后的word目录的document.xml和style.xml
  • 结合docx4j获取上述两个xml的完整内容并转为java对象
  • 正确处理Word文档中两种节设置位置
    • bodysectPr(文档结束时的页面设置)
    • contentpPrsectPr(段落级别的分节符)
    • 保持每个文档原有的页面方向、纸张大小、页边距设置

三、技术实现要点

java 复制代码
// 预处理原始文档
List<String> processedDocPathList = PreprocessDocumentUtil.preprocessDocumentList(batchDocPaths);

// 加载当前批次数据
List<WordprocessingMLPackage> docList = WordProcessingUtils.loadDocList(processedDocPathList);

WordprocessingMLPackage resultDoc;
if (baseDoc == null) {
    // 如果没有基础文档,使用第一个文档作为基础
    resultDoc = docList.get(0);
} else {
    // 如果已有基础文档,将其作为第一个文档
    docList.add(0, baseDoc);
    resultDoc = baseDoc;
}

// 合并样式,以第一个文档的样式为基准
StyleReMapperUtil.mergeStyles(docList);

// 映射编号(避免列表编号混乱)
NumberingMapperUtil.mapNumbering(docList);

// 复制图片、表格等资源(处理关系)
ResourceCopierUtil.copyImages(docList);

// 保存两个文档的格式信息(暂时保留但不处理表格边框)
Map<String, String> formatProperties = TableFormatPreserverUtil.saveDocumentFormat(docList);

// 在合并前应用默认字体大小
FontMapperUtil.applyDocListDefaultFontSizesBeforeMerge(docList, formatProperties);

// 获取基础文档的主要部分
MainDocumentPart main1 = resultDoc.getMainDocumentPart();

// 移除文档网格设置
WordProcessingUtils.removeDocumentGridSettingsList(docList);

// 将合并doc 的所有内容追加到 doc1
WordProcessingUtils.addDocListToBase(main1, docList);

四、使用方法

基本使用

java 复制代码
DocxMerger merger = new DocxMerger();
List<File> docFiles = Arrays.asList(
    new File("document1.docx"),
    new File("document2.docx")
);
File outputFile = new File("merged_result.docx");
merger.mergeDocuments(docFiles, outputFile);

GitHub仓库地址:https://github.com/LLBlood/docx-merge-advanced.git

待解决的问题

  • 页眉页脚
  • 目录
  • 页码
  • 等等杂七杂八的数据
相关推荐
可乐ea几秒前
【Spring Boot + MyBatis|第4篇】MyBatis 动态 SQL:if、where、foreach 使用详解
java·spring boot·后端·sql·mybatis
記億揺晃着的那天7 分钟前
Windows 通过 Java 获取可用端口的一个坑:Hyper-V 保留端口导致 UDP 绑定失败
java·windows·udp
组合缺一8 分钟前
SolonCode(编码智能体)支持鸿蒙 PC
java·华为·ai·ai编程·harmonyos·solon·soloncode
小bo波10 分钟前
用匿名内部类优雅地计算方法执行时间
java·设计模式·性能测试·模板方法模式·lambda·代码优化·匿名内部类
折哥的程序人生 · 物流技术专研14 分钟前
Tomcat 严重警告:JDBC 驱动未注销 + 工作线程泄漏 —— 原因、影响与彻底修复(生产级终极指南)
java·运维·数据库·mysql·oracle·tomcat
一个儒雅随和的男子17 分钟前
sentinel底层原理剖析以及实战优化
java·网络·sentinel
两年半的个人练习生^_^23 分钟前
JMM 进阶:彻底理解 synchronized 实现原理
java·开发语言
戳代码的新星30 分钟前
论小白如何学会使用Maven
java·maven
wyhwust30 分钟前
maven的安装和配置
java
plainGeekDev41 分钟前
HttpURLConnection → OkHttp + Kotlin
android·java·kotlin