Java读取WPS excel.xlsx嵌入图片

1. 背景&原因

经常有读取Excel文件的需求,开发者大多使用apache poi或者基于此的工具进行excel内容读取,前不久遇到了一个需求,读取每一行内容,但每一行都包含图片文件,发现无法通过已封装的工具读取excel的图片内容。

经过研究分析改excel文件为WPS编辑的excel文件,wps编辑的excel文件插入的图片有嵌入类型,使用的wps自己实现的私有函数,office的excel软件对此函数不支持,所以一方面office打开这样的文件图片就会显示成如下:

另外一方面achae poi是基于office的协议实现的excel内容读取,自然就不支持wps编辑的嵌入图片读取。

2. 解决方案

解决方案有两种,第一种在wps编辑的时候改变图片的插入方式改为浮动,自然就是和标准的office兼容的,apache poi相关的工具就能够读取了。

另外一种,如果一定要读取wps私有实现的嵌入图片,那么请继续往下看。

首先我们知道不管是word,excel还是ppt文件本质上就是一个zip的压缩包,里面有个许多xml格式的文件保存相关的信息,思路就是我们可以把wps编辑的.xlsx文件当做zip包解压缩,然后去找图片文件的存储位置,再结合相关的xml配置文件对应文件和单元格的关系就能够提取出wps格式excel嵌入图片了。

直接给大家说结果吧,下图是wps的excel文件解压后的目录, xl/media里面存储的图片文件,xl/cellimages.xml和_rel/cellimages.xml.rels这两个文件存储的是xl/media下的图片文件和表格单元格的对应关系。

从xl/cellimages.xml可以拿到name="ID_551876A0BB4341C480237B706FE48328" r:embed="rId1" 这两个参数很重要, name就对应了上面那个图中单元格的内容DISPIMG("ID_551876A0BB4341C480237B706FE48328",1) ,这个内容是可以通过apache poi当做普通文本读取出来的, 而r:embed="rId1"则是对应了xl/_rel/cellimages.xml.rels中的Relationship标签的Id字段,通过这个对应关系,获取Relationship 的Target值,可知此单元格存储的是media/images1.png。

xml 复制代码
<!-- xl/cellimages.xml -->
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<etc:cellImages xmlns:xdr="http://schemas.openxmlformats.org/drawingml/2006/spreadsheetDrawing"
                xmlns:r="http://schemas.openxmlformats.org/officeDocument/2006/relationships"
                xmlns:a="http://schemas.openxmlformats.org/drawingml/2006/main"
                xmlns:etc="http://www.wps.cn/officeDocument/2017/etCustomData">
    <etc:cellImage>
        <xdr:pic>
            <xdr:nvPicPr>
        
                <xdr:cNvPr id="39" name="ID_551876A0BB4341C480237B706FE48328"/>
                <xdr:cNvPicPr>
                    <a:picLocks noChangeAspect="1"/>
                </xdr:cNvPicPr>
            </xdr:nvPicPr>
            <xdr:blipFill>
                <a:blip r:embed="rId1"/>
                <a:stretch>
                    <a:fillRect/>
                </a:stretch>
            </xdr:blipFill>
            <xdr:spPr>
                <a:xfrm>
                    <a:off x="4676775" y="752475"/>
                    <a:ext cx="7791450" cy="12954000"/>
                </a:xfrm>
                <a:prstGeom prst="rect">
                    <a:avLst/>
                </a:prstGeom>
                <a:noFill/>
                <a:ln w="9525">
                    <a:noFill/>
                </a:ln>
            </xdr:spPr>
        </xdr:pic>
    </etc:cellImage>
</etc:cellImages>


<!-- xl/_rel/cellimages.xml.rels -->
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<Relationships xmlns="http://schemas.openxmlformats.org/package/2006/relationships">
    <Relationship Id="rId1" 
                  Target="media/image1.png"/>

</Relationships>

通过这种方式就可以获取了wps的内容了。

3. 附上第二种方式的代码

相关推荐
桦说编程7 小时前
Java 中如何创建不可变类型
java·后端·函数式编程
lifallen7 小时前
Java Stream sort算子实现:SortedOps
java·开发语言
IT毕设实战小研7 小时前
基于Spring Boot 4s店车辆管理系统 租车管理系统 停车位管理系统 智慧车辆管理系统
java·开发语言·spring boot·后端·spring·毕业设计·课程设计
没有bug.的程序员8 小时前
JVM 总览与运行原理:深入Java虚拟机的核心引擎
java·jvm·python·虚拟机
甄超锋8 小时前
Java ArrayList的介绍及用法
java·windows·spring boot·python·spring·spring cloud·tomcat
阿华的代码王国8 小时前
【Android】RecyclerView复用CheckBox的异常状态
android·xml·java·前端·后端
Zyy~8 小时前
《设计模式》装饰模式
java·设计模式
A尘埃9 小时前
企业级Java项目和大模型结合场景(智能客服系统:电商、金融、政务、企业)
java·金融·政务·智能客服系统
青云交9 小时前
Java 大视界 -- 基于 Java 的大数据可视化在城市交通拥堵治理与出行效率提升中的应用(398)
java·大数据·flink·大数据可视化·拥堵预测·城市交通治理·实时热力图
CHEN5_0210 小时前
【Java基础面试题】Java基础概念
java·开发语言