java按顺序读取docx文件中的内容(包括图片)

使用ApachePOI读取docx文件,首先引入maven:

xml 复制代码
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi</artifactId>
            <version>5.0.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml</artifactId>
            <version>5.0.0</version>
        </dependency>

可以对元素进行遍历,获取内容(段落和表格)

如下:

java 复制代码
        try {
            FileInputStream fis = new FileInputStream("xxxx.docx");
            XWPFDocument document = new XWPFDocument(fis);

            // 遍历文档中的所有元素(段落和表格)
            List<IBodyElement> bodyElements = document.getBodyElements();
            for (IBodyElement bodyElement : bodyElements) {
                if (bodyElement instanceof XWPFParagraph) {
                    XWPFParagraph paragraph = (XWPFParagraph) bodyElement;
                    System.out.println(paragraph.getStyleID() + ":" + paragraph.getText());
                } else if (bodyElement instanceof XWPFTable) {
                    System.out.println(((XWPFTable) bodyElement).getText());
                } else if (bodyElement instanceof XWPFPicture) {
                    System.out.println(Arrays.toString(((XWPFPicture) bodyElement).getPictureData().getData()));
                }
            }

            fis.close();
        } catch (IOException e) {
            e.printStackTrace();
        }

发现此遍历方式不能读取到图片,只能通过getAllPictures方法得到所有图片,但失去了段落和图片之间的顺序。经过探索,改正遍历方式:

java 复制代码
            for (IBodyElement element : bodyElements) {
                if (element instanceof XWPFParagraph) {
                    XWPFParagraph paragraph = (XWPFParagraph) element;
                    String text = paragraph.getText();
                    if (text != null && !text.isEmpty()) {
                      //处理段落或正文
                    } else {
                        // 顺序遍历图片
                        paragraph.getIRuns().forEach(run -> {
                            if (run instanceof XWPFRun) {
                                XWPFRun xWPFRun = (XWPFRun) run;
                                for (XWPFPicture picture : xWPFRun.getEmbeddedPictures()) {
                                    XWPFPictureData pictureData = picture.getPictureData();
                                    String base64Image = "<img src='data:image/png;base64," + Base64.getEncoder().encodeToString((pictureData.getData())) + "'/>";       
                                }
                            }
                        });
                    }
                } else if (element instanceof XWPFTable) {
                //处理表格
                    XWPFTable table = (XWPFTable) element;
                    String text = table.getText();
                }
            }

这样遍历就可以按顺序读取docx文件的内容了。

参考:stackoverflow

相关推荐
m0_3801138428 分钟前
SpringBoot创建动态定时任务的几种方式
java·spring boot·spring
AI逐月35 分钟前
解决 ComfyUI 插件安装后 Nanobind 报错问题:soxr 版本冲突原理解读
开发语言·python
Gofarlic_OMS43 分钟前
SolidEdge专业许可证管理工具选型关键评估标准
java·大数据·运维·服务器·人工智能
清华都得不到的好学生1 小时前
数据结构->1.稀疏数组,2.数组队列(没有取模),3.环形队列
java·开发语言·数据结构
光影少年1 小时前
数组去重方法
开发语言·前端·javascript
我命由我123451 小时前
浏览器的 JS 模块化支持观察记录
开发语言·前端·javascript·css·html·ecmascript·html5
软件开发技术深度爱好者1 小时前
用python + pillow实现GUI界面图片GUI处理工具
开发语言·python
weyyhdke1 小时前
基于SpringBoot和PostGIS的省域“地理难抵点(最纵深处)”检索及可视化实践
java·spring boot·spring
ILYT NCTR1 小时前
【springboot】Spring 官方抛弃了 Java 8!新idea如何创建java8项目
java·spring boot·spring
weixin_425023001 小时前
PG JSONB 对应 Java 字段 + MyBatis-Plus 完整实战
java·开发语言·mybatis