Java 解析 Linux 不同压缩文件的方法及注意事项

背景

commons-compress 包提供了归档压缩文件的工具类,java.util 里面包含了 Zip 和 gz 文件的解压方法,最终以按扁平方式,遍历到全部文件的文件,包括子目录下的文件。使用 Java 实现的日志采集系统涉及到对压缩文件的解析,不同类型的压缩文件,Java 解析方式也不相同,本文整理 Java 解析四类常见压缩文件的方法及注意事项。

关键点在于辨别压缩文件的类型及对应生成命令,确保文件名称的后缀名和生成工具保持一致,否则容易出现解析异常,总结几个点就是:

  1. tar -cvf 生成的普通打包文件,后缀名为 .tar ,文件只归档,不压缩,文件较大。
  2. tar -czvf-z 参数代表用 gzip 压缩,生成 tar.gz 压缩的归档文件。
  3. zip -r 生成的 .zip 压缩文件,可以对目录进行压缩。
  4. gzip 文件名称,单文件压缩工具,对目标文件压缩后生成 .gz 的文件,且删除原文件。

四种压缩方式,入参压缩文件输入流 commpressIns 的各种压缩方式的读取流程。

tar

tar 命令生成的无压缩归档文件,体积比较大,一般不单独使用,它的解析方式为:

java 复制代码
public void parseTarGzFile(InputStream commpressIns) {
	TarArchiveInputStream archiveInputStream = new TarArchiveInputStream(commpressIns, "UTF-8");
    InputStreamReader inputStreamReader = null;
	TarArchiveEntry currentEntry;
    try {
          currentEntry = (TarArchiveEntry) archiveInputStream.getNextEntry();
          // 循环遍历归档条目
          while (currentEntry != null) {
              String subfileName = currentEntry.getName();
 
              inputStreamReader = new InputStreamReader(archiveInputStream)
              // TODO inputStreamReader 逐行读取当前压缩文件条目的内容
         }
    } catch (Exception e) {
        // TODO error 
    }    
}

使用 TarArchiveInputStream 它直接将压缩文件的各个文件都递归列出来,逐个读取就可完成遍历,它跟 zip 文件不一样,文件夹不会被作为一个 Entry ,所以还是比较容易的。

tar.gz

使用 tar -zc 生成的压缩文件,它有两种特性,一个是归档,二是 gzip 的压缩格式,流程与 tar 文件解析一致,但是需要包裹一层 GZip 输入流:

java 复制代码
public void parseTarGzFile(InputStream commpressIns) {
    // 用 gzip 包裹一层
    GZIPInputStream gzInstream = new GZIPInputStream(commpressIns);
	TarArchiveInputStream archiveInputStream = new TarArchiveInputStream(gzInstream, "UTF-8");
    InputStreamReader inputStreamReader = null;
	TarArchiveEntry currentEntry;
    try {
          currentEntry = (TarArchiveEntry) archiveInputStream.getNextEntry();
          // 循环遍历归档条目
          while (currentEntry != null) {
              String subfileName = currentEntry.getName();
 
              inputStreamReader = new InputStreamReader(archiveInputStream)
         
        // TODO inputStreamReader 逐行读取当前压缩文件条目的内容
        }
    } catch (Exception e) {
        // TODO error 
    }    
}

必须使用 tar -z 参数生成的文件,用 TarArchiveInputStream 解析时传入的是 GZIPInputStream 类型,否则非 gzip 压缩的 tar 文件,解析时会包 「非 Gzip Format 」异常 。

zip

zip -r 对文件夹压缩产生的的 zip 文件用 ZipInputStream 解析 。

java 复制代码
public void parseZipFile(InputStream commpressIns) {
	ZipInputStream zipStream = new ZipInputStream(commpressIns);
    ZipEntry entry;
    InputStreamReader inputStreamReader = null;

    while ((entry = zis.getNextEntry()) != null) {
        // 注意事项:忽略文件夹名称条目
        String fileName = entry.getName();
        if (fileName.endsWith("/")) {
            continue;
        }
        
        inputStreamReader = new InputStreamReader(zipStream, "UTF-8");

        // TODO inputStreamReader 逐行读取当前压缩文件条目的内容
    }
}

ZipInputStream 会以递归压缩文件,最终扁平化对所有文件形成一个链表,启动文件夹也会作为一个 ZipEntry ,以 / 结尾,实际内容为空,所以解析时忽略即可。

gz

gzip 读单个文件生成的压缩文件解析比较简单:

java 复制代码
public void parseGzipFile(InputStream commpressIns) {
    GZIPInputStream gzipInput = new GZIPInputStream(commpressIns);
    InputStreamReader reader = new InputStreamReader(gzipInput, "UTF-8");

    // TODO 直接逐行读取文件内容
}       

直接转换为 GZIPInputStream 就可以读取文件内容了。

启示录

zip 的解析目录中存在文件夹的条目,这点跟 tar 归档方式不同,需要注意。此外,解压工具会对文件格式进行校验,当文件后缀和文件格式不一致时,解析异常,需要特别注意。

比如我常用 tar -cvf 打包文件但是命名为 tar.gz ,之前没有特别留意过,直到解析异常。为止防手滑,专门分析四类压缩文件的生成方式及解析方法,整理成文、以备后用。

相关推荐
这孩子叫逆9 分钟前
Spring Boot项目的创建与使用
java·spring boot·后端
星星法术嗲人13 分钟前
【Java】—— 集合框架:Collections工具类的使用
java·开发语言
一丝晨光31 分钟前
C++、Ruby和JavaScript
java·开发语言·javascript·c++·python·c·ruby
天上掉下来个程小白34 分钟前
Stream流的中间方法
java·开发语言·windows
xujinwei_gingko1 小时前
JAVA基础面试题汇总(持续更新)
java·开发语言
liuyang-neu1 小时前
力扣 简单 110.平衡二叉树
java·算法·leetcode·深度优先
一丝晨光1 小时前
Java、PHP、ASP、JSP、Kotlin、.NET、Go
java·kotlin·go·php·.net·jsp·asp
罗曼蒂克在消亡1 小时前
2.3MyBatis——插件机制
java·mybatis·源码学习
_GR1 小时前
每日OJ题_牛客_牛牛冲钻五_模拟_C++_Java
java·数据结构·c++·算法·动态规划
无限大.1 小时前
c语言200例 067
java·c语言·开发语言