elasticsearch存储数据压缩

超级大拌菜2023-11-03 21:49

一.前言

elk是流行的日志监控分析平台，但es占用存储空间过大，下面介绍几种压缩方案。

二.方案

1.禁用不需要的特性

不需要分词的字段，禁用text类型，使用keyword.（我们所有字段都是keyword）

2.使用更高效率的压缩算法

es默认压缩算法是LZ4，在es7.10之后提供了一种压缩比更高的算法DEFLATE，LZ4和DEFLATE算法比较：

算法	压缩比	压缩速度	解压速度	压缩内存占用	解压内存占用
DEFLATE	高	慢	慢	少	少
LZ4	低	快	快	多	多

3.定期force_merge

为不再更新的只读索引执行force merge，将Lucene索引合并为单个分段，可以提升查询速度。当一个Lucene索引存在多个分段时，每个分段会单独执行搜索再将结果合并；另外执行force_merge后也会释放无法被GC的segmentCache（另一种是close掉索引）。所以将只读索引强制合并为一个Lucene分段不仅可以优化搜索过程，减少内存占用，对索引恢复速度也有好处。

例如，每天生成一个新的索引，然后用别名关联，或者使用索引通配符。这样，可以每天凌晨对昨天的索引执行force-merge。

三.总结

压缩算法将LZ4改为Deflate，空间占用量可以下降10%。Elasticsearch统计的索引大小是整个索引所占空间空间的大小，整个索引包括很多文件，比如tim词典，tip词典索引，pos位置信息，fdt存储字段信息（_source实际存储的文件），等等。Elasticsearch中"codec": "best_compression" （也就是DEFLATE和LZ4压缩算法），是对fdt这个文件进行压缩。