zstd压缩算法概述与基本使用

本文仅关注zstd的使用,并不关心其算法的具体实现

并没有尝试使用zstd的所有功能模式,但是会简单介绍每种模式的应用场景,用到的时候去查api吧

step 0:why zstd?

zstd是facebook开源的压缩算法,可以在这里找到:https://github.com/facebook/zstd

官方使用文档:https://facebook.github.io/zstd/zstd_manual.html

根据传闻(自己评估),zstd在通用任务场景下,其压缩速度和压缩比都有相对优秀的表现,相对于gzip和zlib等同行值得一试。

但是,具体采用哪种压缩算法,需要根据你自己的工作场景选择,最好提供一些sample files在benchmark上跑一下试试。

此处代码为C++,也支持其他的语言版本,可以到官网中查找。

step 1:下载并安装zstd

复制代码
git clone https://github.com/facebook/zstd.git
cd zstd/
make
sudo make install
make check

至此,应该正常完成zstd的安装和测试,可以cd examples/来尝试编译并运行部分demo代码

step 2:zstd的使用

step 2.1:基本功能api

step 2.1.1:通用压缩

单个文件压缩:ZSTD_compressZSTD_decompress成对使用,过程中需要提前分配内存空间,参见demo吧

多个文件批量压缩:一个最为重大的误区是对ZSTD_compressCCtx的理解,该函数只会将多个文件压缩为多个.zst,实际上ZSTD_compressCCtx并不会将多个文件打包为一个.zst

其意义在于重复使用ZSTD_CCtx上下文,避免多次重复申请和释放内存,用于批量压缩单个文件

step 2.1.2:流式压缩

流式压缩:本质是对文件进行分块 压缩,通常适用于大文件而不是小文件,比如日志,视频流,数据库等

分块读取数据,相比于一次性读取减少了内存占用 ,并且分块也可以支持多线程并发

解压缩同理,分块读取并解压缩。
ZSTD_compressStreamZSTD_decompressStream成对使用

注意,ZSTD_decompressZSTD_decompressStream都能够正确解压文件,只是性能有区别

ZSTD_c_compressionLevel:是调整压缩速度和压缩率的trade-off,默认等级为3,当前范围是 1 ~ ZSTD_maxCLevel()

step 2.1.3:字典压缩

官方提出了以下讨论:

The smaller the amount of data to compress, the more difficult it is to compress. This problem is common to all compression algorithms, and reason is, compression algorithms learn from past data how to compress future data. But at the beginning of a new data set, there is no "past" to build upon.

压缩算法的本质是对过去内容pattern的学习,直觉上有点类似ai中的模式识别。

提出了一个方法:使用一个预训练的字典对多个文件进行压缩,以提高压缩率和速度。

适用于小文件、多文件压缩,比标准压缩更高效。

zstd --train FullPathToTrainingSet/* -o dictionaryName,提前训练所需的字典文件

代码中使用的API为:

  • ZSTD_createCDict:创建字典结构
  • ZSTD_compress_usingCDict:实际压缩
  • ZSTD_decompress_usingDDict:实际解压

step 2.2:文件夹压缩保持原有的文件结构

以上压缩结果均为单对单,已有的zstd API不支持将多个文件保持原有的树状文件结构并压缩为一个文件。

Q: 所以,想要将多个文件压缩成一个压缩包,一定有办法的吧?

A: 那当然!

我们常见的处理方式是混合使用tarzsttar工具保持原有的文件结构,打包为一个文件。

之后使用zst将单个文件压缩。

还有另一种方法是使用流式压缩,将递归遍历的路径结构写入压缩内容,需要在文件之间添加分隔符或元数据

这种做法会比较复杂,在性能瓶颈不严重的情况下我个人不太喜欢。

step 3:一个小case

注意,约定被压缩后的文件后缀为.zst

最近在,一般会在工具函数(命名为utils.h或者common.h)等部分设置一个check函数,在对应环境下有统一的判断和返回处理。

这种操作可以避免你每次都写相同的错误处理,这在实际的编程实践中可以显著减少代码行数并增加可读性,是优秀且值得借鉴的。

类似zstd中的:

复制代码
/*! CHECK
 * Check that the condition holds. If it doesn't print a message and die.
 */
#define CHECK(cond, ...)                        \
    do {                                        \
        if (!(cond)) {                          \
            fprintf(stderr,                     \
                    "%s:%d CHECK(%s) failed: ", \
                    __FILE__,                   \
                    __LINE__,                   \
                    #cond);                     \
            fprintf(stderr, "" __VA_ARGS__);    \
            fprintf(stderr, "\n");              \
            exit(1);                            \
        }                                       \
    } while (0)

/*! CHECK_ZSTD
 * Check the zstd error code and die if an error occurred after printing a
 * message.
 */
#define CHECK_ZSTD(fn)                                           \
    do {                                                         \
        size_t const err = (fn);                                 \
        CHECK(!ZSTD_isError(err), "%s", ZSTD_getErrorName(err)); \
    } while (0)

和cuda中的:

复制代码
#define CHECK(call)\
{\
  const cudaError_t error=call;\
  if(error!=cudaSuccess)\
  {\
      printf("ERROR: %s:%d,",__FILE__,__LINE__);\
      printf("code:%d,reason:%s\n",error,cudaGetErrorString(error));\
      exit(1);\
  }\
}
相关推荐
卷心菜不卷Iris21 天前
第1章大型互联网公司的基础架构——1.9 LSM Tree
数据库·lsm-tree·互联网大厂·基础架构
卷心菜不卷Iris24 天前
第1章大型互联网公司的基础架构——1.10 其他NoSQL数据库
数据库·nosql·es·互联网大厂·基础架构
卷心菜不卷Iris1 个月前
第1章大型互联网公司的基础架构——1.3 HTTP-DNS
网络·网络协议·http·dns·互联网大厂·http-dns·基础架构