Java读取WPS excel.xlsx嵌入图片

1. 背景&原因

经常有读取Excel文件的需求,开发者大多使用apache poi或者基于此的工具进行excel内容读取,前不久遇到了一个需求,读取每一行内容,但每一行都包含图片文件,发现无法通过已封装的工具读取excel的图片内容。

经过研究分析改excel文件为WPS编辑的excel文件,wps编辑的excel文件插入的图片有嵌入类型,使用的wps自己实现的私有函数,office的excel软件对此函数不支持,所以一方面office打开这样的文件图片就会显示成如下:

另外一方面achae poi是基于office的协议实现的excel内容读取,自然就不支持wps编辑的嵌入图片读取。

2. 解决方案

解决方案有两种,第一种在wps编辑的时候改变图片的插入方式改为浮动,自然就是和标准的office兼容的,apache poi相关的工具就能够读取了。

另外一种,如果一定要读取wps私有实现的嵌入图片,那么请继续往下看。

首先我们知道不管是word,excel还是ppt文件本质上就是一个zip的压缩包,里面有个许多xml格式的文件保存相关的信息,思路就是我们可以把wps编辑的.xlsx文件当做zip包解压缩,然后去找图片文件的存储位置,再结合相关的xml配置文件对应文件和单元格的关系就能够提取出wps格式excel嵌入图片了。

直接给大家说结果吧,下图是wps的excel文件解压后的目录, xl/media里面存储的图片文件,xl/cellimages.xml和_rel/cellimages.xml.rels这两个文件存储的是xl/media下的图片文件和表格单元格的对应关系。

从xl/cellimages.xml可以拿到name="ID_551876A0BB4341C480237B706FE48328" r:embed="rId1" 这两个参数很重要, name就对应了上面那个图中单元格的内容DISPIMG("ID_551876A0BB4341C480237B706FE48328",1) ,这个内容是可以通过apache poi当做普通文本读取出来的, 而r:embed="rId1"则是对应了xl/_rel/cellimages.xml.rels中的Relationship标签的Id字段,通过这个对应关系,获取Relationship 的Target值,可知此单元格存储的是media/images1.png。

xml 复制代码
<!-- xl/cellimages.xml -->
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<etc:cellImages xmlns:xdr="http://schemas.openxmlformats.org/drawingml/2006/spreadsheetDrawing"
                xmlns:r="http://schemas.openxmlformats.org/officeDocument/2006/relationships"
                xmlns:a="http://schemas.openxmlformats.org/drawingml/2006/main"
                xmlns:etc="http://www.wps.cn/officeDocument/2017/etCustomData">
    <etc:cellImage>
        <xdr:pic>
            <xdr:nvPicPr>
        
                <xdr:cNvPr id="39" name="ID_551876A0BB4341C480237B706FE48328"/>
                <xdr:cNvPicPr>
                    <a:picLocks noChangeAspect="1"/>
                </xdr:cNvPicPr>
            </xdr:nvPicPr>
            <xdr:blipFill>
                <a:blip r:embed="rId1"/>
                <a:stretch>
                    <a:fillRect/>
                </a:stretch>
            </xdr:blipFill>
            <xdr:spPr>
                <a:xfrm>
                    <a:off x="4676775" y="752475"/>
                    <a:ext cx="7791450" cy="12954000"/>
                </a:xfrm>
                <a:prstGeom prst="rect">
                    <a:avLst/>
                </a:prstGeom>
                <a:noFill/>
                <a:ln w="9525">
                    <a:noFill/>
                </a:ln>
            </xdr:spPr>
        </xdr:pic>
    </etc:cellImage>
</etc:cellImages>


<!-- xl/_rel/cellimages.xml.rels -->
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<Relationships xmlns="http://schemas.openxmlformats.org/package/2006/relationships">
    <Relationship Id="rId1" 
                  Target="media/image1.png"/>

</Relationships>

通过这种方式就可以获取了wps的内容了。

3. 附上第二种方式的代码

相关推荐
jackson凌15 分钟前
【Java学习笔记】【第一阶段项目实践】房屋出租系统(面向对象版本)
java·笔记·学习
带刺的坐椅18 分钟前
Solon Ai Flow 编排开发框架发布预告(效果预览)
java·ai·solon·dify·solon-flow
2302_8097983233 分钟前
【JavaWeb】JDBC
java·开发语言·servlet
小刘不想改BUG1 小时前
LeetCode LCR 010 和为 K 的子数组 (Java)
java·算法·leetcode
MeyrlNotFound1 小时前
(二十一)Java集合框架源码深度解析
java·开发语言
扶尔魔ocy1 小时前
QT使用QXlsx读取excel表格中的图片
c++·excel
正在走向自律1 小时前
2025年、2024年最新版IntelliJ IDEA下载安装过程(含Java环境搭建+Maven下载及配置)
java·jvm·jdk·maven·intellij-idea
不会就选C.2 小时前
【开源分享】健康饮食管理系统(双端+论文)
java·spring boot·开源·毕业设计
永远有多远.2 小时前
【高频面试题】LRU缓存
java·缓存·面试
Ten peaches2 小时前
Selenium-Java版(环境安装)
java·前端·selenium·自动化