问题描述:
一个3万行的数据保存成csv大概10个G,但保存成excel格式只有100多M
原因分析:
因为xlsx 实际上就是 zip 压缩包,同时,如果有大量重复的数据,XLSX 会提取文本值,将其存储在查找表中,这意味着每个文本字符串只需要使用一次空间。数据量大了压缩的优势才体现出来。如图所示:压缩后的csv文档仍然有1G多,但xlsx只有100M
而且csv压缩后的大小也远远大于xlsx格式,如图所示:
一个3万行的数据保存成csv大概10个G,但保存成excel格式只有100多M
因为xlsx 实际上就是 zip 压缩包,同时,如果有大量重复的数据,XLSX 会提取文本值,将其存储在查找表中,这意味着每个文本字符串只需要使用一次空间。数据量大了压缩的优势才体现出来。如图所示:压缩后的csv文档仍然有1G多,但xlsx只有100M
而且csv压缩后的大小也远远大于xlsx格式,如图所示: