Java 解析 Linux 不同压缩文件的方法及注意事项

背景

commons-compress 包提供了归档压缩文件的工具类,java.util 里面包含了 Zip 和 gz 文件的解压方法,最终以按扁平方式,遍历到全部文件的文件,包括子目录下的文件。使用 Java 实现的日志采集系统涉及到对压缩文件的解析,不同类型的压缩文件,Java 解析方式也不相同,本文整理 Java 解析四类常见压缩文件的方法及注意事项。

关键点在于辨别压缩文件的类型及对应生成命令,确保文件名称的后缀名和生成工具保持一致,否则容易出现解析异常,总结几个点就是:

  1. tar -cvf 生成的普通打包文件,后缀名为 .tar ,文件只归档,不压缩,文件较大。
  2. tar -czvf-z 参数代表用 gzip 压缩,生成 tar.gz 压缩的归档文件。
  3. zip -r 生成的 .zip 压缩文件,可以对目录进行压缩。
  4. gzip 文件名称,单文件压缩工具,对目标文件压缩后生成 .gz 的文件,且删除原文件。

四种压缩方式,入参压缩文件输入流 commpressIns 的各种压缩方式的读取流程。

tar

tar 命令生成的无压缩归档文件,体积比较大,一般不单独使用,它的解析方式为:

java 复制代码
public void parseTarGzFile(InputStream commpressIns) {
	TarArchiveInputStream archiveInputStream = new TarArchiveInputStream(commpressIns, "UTF-8");
    InputStreamReader inputStreamReader = null;
	TarArchiveEntry currentEntry;
    try {
          currentEntry = (TarArchiveEntry) archiveInputStream.getNextEntry();
          // 循环遍历归档条目
          while (currentEntry != null) {
              String subfileName = currentEntry.getName();
 
              inputStreamReader = new InputStreamReader(archiveInputStream)
              // TODO inputStreamReader 逐行读取当前压缩文件条目的内容
         }
    } catch (Exception e) {
        // TODO error 
    }    
}

使用 TarArchiveInputStream 它直接将压缩文件的各个文件都递归列出来,逐个读取就可完成遍历,它跟 zip 文件不一样,文件夹不会被作为一个 Entry ,所以还是比较容易的。

tar.gz

使用 tar -zc 生成的压缩文件,它有两种特性,一个是归档,二是 gzip 的压缩格式,流程与 tar 文件解析一致,但是需要包裹一层 GZip 输入流:

java 复制代码
public void parseTarGzFile(InputStream commpressIns) {
    // 用 gzip 包裹一层
    GZIPInputStream gzInstream = new GZIPInputStream(commpressIns);
	TarArchiveInputStream archiveInputStream = new TarArchiveInputStream(gzInstream, "UTF-8");
    InputStreamReader inputStreamReader = null;
	TarArchiveEntry currentEntry;
    try {
          currentEntry = (TarArchiveEntry) archiveInputStream.getNextEntry();
          // 循环遍历归档条目
          while (currentEntry != null) {
              String subfileName = currentEntry.getName();
 
              inputStreamReader = new InputStreamReader(archiveInputStream)
         
        // TODO inputStreamReader 逐行读取当前压缩文件条目的内容
        }
    } catch (Exception e) {
        // TODO error 
    }    
}

必须使用 tar -z 参数生成的文件,用 TarArchiveInputStream 解析时传入的是 GZIPInputStream 类型,否则非 gzip 压缩的 tar 文件,解析时会包 「非 Gzip Format 」异常 。

zip

zip -r 对文件夹压缩产生的的 zip 文件用 ZipInputStream 解析 。

java 复制代码
public void parseZipFile(InputStream commpressIns) {
	ZipInputStream zipStream = new ZipInputStream(commpressIns);
    ZipEntry entry;
    InputStreamReader inputStreamReader = null;

    while ((entry = zis.getNextEntry()) != null) {
        // 注意事项:忽略文件夹名称条目
        String fileName = entry.getName();
        if (fileName.endsWith("/")) {
            continue;
        }
        
        inputStreamReader = new InputStreamReader(zipStream, "UTF-8");

        // TODO inputStreamReader 逐行读取当前压缩文件条目的内容
    }
}

ZipInputStream 会以递归压缩文件,最终扁平化对所有文件形成一个链表,启动文件夹也会作为一个 ZipEntry ,以 / 结尾,实际内容为空,所以解析时忽略即可。

gz

gzip 读单个文件生成的压缩文件解析比较简单:

java 复制代码
public void parseGzipFile(InputStream commpressIns) {
    GZIPInputStream gzipInput = new GZIPInputStream(commpressIns);
    InputStreamReader reader = new InputStreamReader(gzipInput, "UTF-8");

    // TODO 直接逐行读取文件内容
}       

直接转换为 GZIPInputStream 就可以读取文件内容了。

启示录

zip 的解析目录中存在文件夹的条目,这点跟 tar 归档方式不同,需要注意。此外,解压工具会对文件格式进行校验,当文件后缀和文件格式不一致时,解析异常,需要特别注意。

比如我常用 tar -cvf 打包文件但是命名为 tar.gz ,之前没有特别留意过,直到解析异常。为止防手滑,专门分析四类压缩文件的生成方式及解析方法,整理成文、以备后用。

相关推荐
Buleall5 分钟前
期末考学C
java·开发语言
重生之绝世牛码7 分钟前
Java设计模式 —— 【结构型模式】外观模式详解
java·大数据·开发语言·设计模式·设计原则·外观模式
小蜗牛慢慢爬行13 分钟前
有关异步场景的 10 大 Spring Boot 面试问题
java·开发语言·网络·spring boot·后端·spring·面试
新手小袁_J38 分钟前
JDK11下载安装和配置超详细过程
java·spring cloud·jdk·maven·mybatis·jdk11
呆呆小雅38 分钟前
C#关键字volatile
java·redis·c#
Monly2139 分钟前
Java(若依):修改Tomcat的版本
java·开发语言·tomcat
Ttang2341 分钟前
Tomcat原理(6)——tomcat完整实现
java·tomcat
钱多多_qdd1 小时前
spring cache源码解析(四)——从@EnableCaching开始来阅读源码
java·spring boot·spring
waicsdn_haha1 小时前
Java/JDK下载、安装及环境配置超详细教程【Windows10、macOS和Linux图文详解】
java·运维·服务器·开发语言·windows·后端·jdk
Q_19284999061 小时前
基于Spring Boot的摄影器材租赁回收系统
java·spring boot·后端