Java读取WPS excel.xlsx嵌入图片

1. 背景&原因

经常有读取Excel文件的需求,开发者大多使用apache poi或者基于此的工具进行excel内容读取,前不久遇到了一个需求,读取每一行内容,但每一行都包含图片文件,发现无法通过已封装的工具读取excel的图片内容。

经过研究分析改excel文件为WPS编辑的excel文件,wps编辑的excel文件插入的图片有嵌入类型,使用的wps自己实现的私有函数,office的excel软件对此函数不支持,所以一方面office打开这样的文件图片就会显示成如下:

另外一方面achae poi是基于office的协议实现的excel内容读取,自然就不支持wps编辑的嵌入图片读取。

2. 解决方案

解决方案有两种,第一种在wps编辑的时候改变图片的插入方式改为浮动,自然就是和标准的office兼容的,apache poi相关的工具就能够读取了。

另外一种,如果一定要读取wps私有实现的嵌入图片,那么请继续往下看。

首先我们知道不管是word,excel还是ppt文件本质上就是一个zip的压缩包,里面有个许多xml格式的文件保存相关的信息,思路就是我们可以把wps编辑的.xlsx文件当做zip包解压缩,然后去找图片文件的存储位置,再结合相关的xml配置文件对应文件和单元格的关系就能够提取出wps格式excel嵌入图片了。

直接给大家说结果吧,下图是wps的excel文件解压后的目录, xl/media里面存储的图片文件,xl/cellimages.xml和_rel/cellimages.xml.rels这两个文件存储的是xl/media下的图片文件和表格单元格的对应关系。

从xl/cellimages.xml可以拿到name="ID_551876A0BB4341C480237B706FE48328" r:embed="rId1" 这两个参数很重要, name就对应了上面那个图中单元格的内容DISPIMG("ID_551876A0BB4341C480237B706FE48328",1) ,这个内容是可以通过apache poi当做普通文本读取出来的, 而r:embed="rId1"则是对应了xl/_rel/cellimages.xml.rels中的Relationship标签的Id字段,通过这个对应关系,获取Relationship 的Target值,可知此单元格存储的是media/images1.png。

xml 复制代码
<!-- xl/cellimages.xml -->
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<etc:cellImages xmlns:xdr="http://schemas.openxmlformats.org/drawingml/2006/spreadsheetDrawing"
                xmlns:r="http://schemas.openxmlformats.org/officeDocument/2006/relationships"
                xmlns:a="http://schemas.openxmlformats.org/drawingml/2006/main"
                xmlns:etc="http://www.wps.cn/officeDocument/2017/etCustomData">
    <etc:cellImage>
        <xdr:pic>
            <xdr:nvPicPr>
        
                <xdr:cNvPr id="39" name="ID_551876A0BB4341C480237B706FE48328"/>
                <xdr:cNvPicPr>
                    <a:picLocks noChangeAspect="1"/>
                </xdr:cNvPicPr>
            </xdr:nvPicPr>
            <xdr:blipFill>
                <a:blip r:embed="rId1"/>
                <a:stretch>
                    <a:fillRect/>
                </a:stretch>
            </xdr:blipFill>
            <xdr:spPr>
                <a:xfrm>
                    <a:off x="4676775" y="752475"/>
                    <a:ext cx="7791450" cy="12954000"/>
                </a:xfrm>
                <a:prstGeom prst="rect">
                    <a:avLst/>
                </a:prstGeom>
                <a:noFill/>
                <a:ln w="9525">
                    <a:noFill/>
                </a:ln>
            </xdr:spPr>
        </xdr:pic>
    </etc:cellImage>
</etc:cellImages>


<!-- xl/_rel/cellimages.xml.rels -->
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<Relationships xmlns="http://schemas.openxmlformats.org/package/2006/relationships">
    <Relationship Id="rId1" 
                  Target="media/image1.png"/>

</Relationships>

通过这种方式就可以获取了wps的内容了。

3. 附上第二种方式的代码

相关推荐
Mr__Miss18 分钟前
面试踩过的坑
java·开发语言
爱喝一杯白开水20 分钟前
POI从入门到上手(一)-轻松完成Apache POI使用,完成Excel导入导出.
java·poi
向哆哆1 小时前
Java 安全:如何防止 DDoS 攻击?
java·安全·ddos
啥都想学的又啥都不会的研究生1 小时前
Kubernetes in action-初相识
java·docker·微服务·容器·kubernetes·etcd·kubelet
毅航1 小时前
MyBatis 事务管理:一文掌握Mybatis事务管理核心逻辑
java·后端·mybatis
宝耶1 小时前
面试常问问题:Java基础篇
java·面试·职场和发展
躲在云朵里`2 小时前
IDEA搭建环境的五种方式
java·ide·intellij-idea
喵手2 小时前
从 Java 到 Kotlin:在现有项目中迁移的最佳实践!
java·python·kotlin
阑梦清川2 小时前
AI超级智能体项目教程(二)---后端项目初始化(设计knif4j接口文档的使用)
java·前端·数据库
jack xu12 小时前
高频面试题:如何保证数据库和es数据一致性
java·大数据·数据库·mysql·elasticsearch