Java读取WPS excel.xlsx嵌入图片

1. 背景&原因

经常有读取Excel文件的需求,开发者大多使用apache poi或者基于此的工具进行excel内容读取,前不久遇到了一个需求,读取每一行内容,但每一行都包含图片文件,发现无法通过已封装的工具读取excel的图片内容。

经过研究分析改excel文件为WPS编辑的excel文件,wps编辑的excel文件插入的图片有嵌入类型,使用的wps自己实现的私有函数,office的excel软件对此函数不支持,所以一方面office打开这样的文件图片就会显示成如下:

另外一方面achae poi是基于office的协议实现的excel内容读取,自然就不支持wps编辑的嵌入图片读取。

2. 解决方案

解决方案有两种,第一种在wps编辑的时候改变图片的插入方式改为浮动,自然就是和标准的office兼容的,apache poi相关的工具就能够读取了。

另外一种,如果一定要读取wps私有实现的嵌入图片,那么请继续往下看。

首先我们知道不管是word,excel还是ppt文件本质上就是一个zip的压缩包,里面有个许多xml格式的文件保存相关的信息,思路就是我们可以把wps编辑的.xlsx文件当做zip包解压缩,然后去找图片文件的存储位置,再结合相关的xml配置文件对应文件和单元格的关系就能够提取出wps格式excel嵌入图片了。

直接给大家说结果吧,下图是wps的excel文件解压后的目录, xl/media里面存储的图片文件,xl/cellimages.xml和_rel/cellimages.xml.rels这两个文件存储的是xl/media下的图片文件和表格单元格的对应关系。

从xl/cellimages.xml可以拿到name="ID_551876A0BB4341C480237B706FE48328" r:embed="rId1" 这两个参数很重要, name就对应了上面那个图中单元格的内容DISPIMG("ID_551876A0BB4341C480237B706FE48328",1) ,这个内容是可以通过apache poi当做普通文本读取出来的, 而r:embed="rId1"则是对应了xl/_rel/cellimages.xml.rels中的Relationship标签的Id字段,通过这个对应关系,获取Relationship 的Target值,可知此单元格存储的是media/images1.png。

xml 复制代码
<!-- xl/cellimages.xml -->
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<etc:cellImages xmlns:xdr="http://schemas.openxmlformats.org/drawingml/2006/spreadsheetDrawing"
                xmlns:r="http://schemas.openxmlformats.org/officeDocument/2006/relationships"
                xmlns:a="http://schemas.openxmlformats.org/drawingml/2006/main"
                xmlns:etc="http://www.wps.cn/officeDocument/2017/etCustomData">
    <etc:cellImage>
        <xdr:pic>
            <xdr:nvPicPr>
        
                <xdr:cNvPr id="39" name="ID_551876A0BB4341C480237B706FE48328"/>
                <xdr:cNvPicPr>
                    <a:picLocks noChangeAspect="1"/>
                </xdr:cNvPicPr>
            </xdr:nvPicPr>
            <xdr:blipFill>
                <a:blip r:embed="rId1"/>
                <a:stretch>
                    <a:fillRect/>
                </a:stretch>
            </xdr:blipFill>
            <xdr:spPr>
                <a:xfrm>
                    <a:off x="4676775" y="752475"/>
                    <a:ext cx="7791450" cy="12954000"/>
                </a:xfrm>
                <a:prstGeom prst="rect">
                    <a:avLst/>
                </a:prstGeom>
                <a:noFill/>
                <a:ln w="9525">
                    <a:noFill/>
                </a:ln>
            </xdr:spPr>
        </xdr:pic>
    </etc:cellImage>
</etc:cellImages>


<!-- xl/_rel/cellimages.xml.rels -->
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<Relationships xmlns="http://schemas.openxmlformats.org/package/2006/relationships">
    <Relationship Id="rId1" 
                  Target="media/image1.png"/>

</Relationships>

通过这种方式就可以获取了wps的内容了。

3. 附上第二种方式的代码

相关推荐
weixin_537590455 分钟前
《Java编程入门官方教程》第八章练习答案
java·开发语言·servlet
CodeClimb31 分钟前
【华为OD-E卷-最左侧冗余覆盖子串 100分(python、java、c++、js、c)】
java·python·华为od
Q_19284999061 小时前
基于Spring Boot的大学就业信息管理系统
java·spring boot·后端
xmh-sxh-13141 小时前
常用数据库类型介绍
java
single5941 小时前
【c++笔试强训】(第四十一篇)
java·c++·算法·深度优先·图论·牛客
1 9 J1 小时前
Java 上机实践11(组件及事件处理)
java·开发语言·学习·算法
爬菜2 小时前
java简单题目练习
java
bufanjun0012 小时前
JUC并发工具---ThreadLocal
java·jvm·面试·并发·并发基础
南宫生2 小时前
力扣-图论-70【算法学习day.70】
java·学习·算法·leetcode·图论
zfj3212 小时前
java日志框架:slf4j、jul(java.util.logging)、 log4j、 logback
java·log4j·logback·java日志框架·slf4j·jul