word文档实现标题提取

word文档实现标题提取

话不多说,直接上代码(使用的是com.aspose.words.*下所有的包,最后附依赖jar包,解压zip文件,用里面的jar包就行,也可以自己maven下载)

java 复制代码
    /**
     * 标题提取
     * @param inputFilePath
     * @param outputFilePath
     * @return
     */
    public static void modifyWordDocument(String inputFilePath, String outputFilePath) {
        try {
            // 加载 Word 文档
            Document doc = new Document(inputFilePath);
            // 遍历文档的节点
            for (Object node : doc.getChildNodes(NodeType.PARAGRAPH, true)) {
                Paragraph paragraph = (Paragraph) node;

                // 检查段落的样式是否为标题样式
                if (paragraph.getParagraphFormat().getStyle().getStyleIdentifier() != StyleIdentifier.HEADING_1 &&
                        paragraph.getParagraphFormat().getStyle().getStyleIdentifier() != StyleIdentifier.HEADING_2 &&
                        paragraph.getParagraphFormat().getStyle().getStyleIdentifier() != StyleIdentifier.HEADING_3 &&
                        paragraph.getParagraphFormat().getStyle().getStyleIdentifier() != StyleIdentifier.HEADING_4 &&
                        paragraph.getParagraphFormat().getStyle().getStyleIdentifier() != StyleIdentifier.HEADING_5 &&
                        paragraph.getParagraphFormat().getStyle().getStyleIdentifier() != StyleIdentifier.HEADING_6 &&
                        paragraph.getParagraphFormat().getStyle().getStyleIdentifier() != StyleIdentifier.HEADING_7 &&
                        paragraph.getParagraphFormat().getStyle().getStyleIdentifier() != StyleIdentifier.HEADING_8 &&
                        paragraph.getParagraphFormat().getStyle().getStyleIdentifier() != StyleIdentifier.HEADING_9) {
                    // 如果不是标题样式,则删除该段落
                    paragraph.remove();
                }
            }
            // 删除所有表格
            for (Object node : doc.getChildNodes(NodeType.TABLE, true)) {
                Table table = (Table) node;
                table.remove();
            }
            // 用于存储要删除的章节
            List<Section> emptySections = new ArrayList<>();
            // 遍历文档的章节
            for (Section section : doc.getSections()) {
                boolean isEmpty = true;

                // 检查每个章节中的所有段落
                for (Object node : section.getChildNodes(NodeType.PARAGRAPH, true)) {
                    Paragraph paragraph = (Paragraph) node;

                    // 如果找到非空段落,则该章节不为空
                    if (!paragraph.getRange().getText().trim().isEmpty()) {
                        isEmpty = false;
                        break;
                    }
                }

                // 如果章节是空的,加入删除列表
                if (isEmpty) {
                    emptySections.add(section);
                }
            }

            // 删除存储的空章节
            for (Section section : emptySections) {
                if (section.getParentNode() != null) {
                    // 只有在有父节点时才删除
                    section.remove();
                }
            }
            // 保存修改后的文档
            doc.save(outputFilePath);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

下面是测试main方法:

java 复制代码
    public static void main(String[] args) {
        String inputFilePath = "your\\file_path\\test.docx";
        String outputFilePath = "your\\file_path\\test-标题提取.docx";
        
        modifyWordDocument(inputFilePath, outputFilePath);
    }

pom文件中依赖引入,我引得是本地包

java 复制代码
		<dependency>
            <groupId>com.aspose-word-cracked</groupId>
            <artifactId>aspose-word-cracked</artifactId>
            <scope>system</scope>
            <version>1.0</version>
            <systemPath>${basedir}/libs/aspose-words-20.12-jdk17-crack.jar</systemPath>
        </dependency>
相关推荐
执风挽^3 小时前
Python基础编程题2
开发语言·python·算法·visual studio code
纤纡.4 小时前
PyTorch 入门精讲:从框架选择到 MNIST 手写数字识别实战
人工智能·pytorch·python
kjkdd4 小时前
6.1 核心组件(Agent)
python·ai·语言模型·langchain·ai编程
小镇敲码人4 小时前
剖析CANN框架中Samples仓库:从示例到实战的AI开发指南
c++·人工智能·python·华为·acl·cann
萧鼎4 小时前
Python 包管理的“超音速”革命:全面上手 uv 工具链
开发语言·python·uv
alvin_20055 小时前
python之OpenGL应用(二)Hello Triangle
python·opengl
铁蛋AI编程实战5 小时前
通义千问 3.5 Turbo GGUF 量化版本地部署教程:4G 显存即可运行,数据永不泄露
java·人工智能·python
jiang_changsheng5 小时前
RTX 2080 Ti魔改22GB显卡的最优解ComfyUI教程
python·comfyui
0思必得06 小时前
[Web自动化] Selenium处理滚动条
前端·爬虫·python·selenium·自动化
沈浩(种子思维作者)6 小时前
系统要活起来就必须开放包容去中心化
人工智能·python·flask·量子计算