elasticsearch存储数据压缩

一.前言

elk是流行的日志监控分析平台,但es占用存储空间过大,下面介绍几种压缩方案。

二.方案

1.禁用不需要的特性

不需要分词的字段,禁用text类型,使用keyword.(我们所有字段都是keyword)

2.使用更高效率的压缩算法

es默认压缩算法是LZ4,在es7.10之后提供了一种压缩比更高的算法DEFLATE,LZ4和DEFLATE算法比较:

算法 压缩比 压缩速度 解压速度 压缩内存占用 解压内存占用
DEFLATE
LZ4
3.定期force_merge

为不再更新的只读索引执行force merge,将Lucene索引合并为单个分段,可以提升查询速度。当一个Lucene索引存在多个分段时,每个分段会单独执行搜索再将结果合并;另外执行force_merge后也会释放无法被GC的segmentCache(另一种是close掉索引)。所以将只读索引强制合并为一个Lucene分段不仅可以优化搜索过程,减少内存占用,对索引恢复速度也有好处。

例如,每天生成一个新的索引,然后用别名关联,或者使用索引通配符。这样,可以每天凌晨对昨天的索引执行force-merge。

三.总结

压缩算法将LZ4改为Deflate,空间占用量可以下降10%。Elasticsearch统计的索引大小是整个索引所占空间空间的大小,整个索引包括很多文件,比如tim词典,tip词典索引,pos位置信息,fdt存储字段信息(_source实际存储的文件),等等。Elasticsearch中"codec": "best_compression" (也就是DEFLATE和LZ4压缩算法),是对fdt这个文件进行压缩。

相关推荐
AI营销先锋15 分钟前
2025 AI市场舆情分析行业报告:原圈科技如何帮助企业穿越迷雾,寻找增长北极星
大数据·人工智能
Elasticsearch24 分钟前
使用 Node.js Elasticsearch 客户端索引大型 CSV 文件
elasticsearch
TDengine (老段)35 分钟前
TDengine 在新能源领域的最佳实践
大数据·数据库·物联网·时序数据库·tdengine·涛思数据
郑州光合科技余经理1 小时前
海外国际版同城服务系统开发:PHP技术栈
java·大数据·开发语言·前端·人工智能·架构·php
跨境卫士苏苏1 小时前
突围新品广告泥潭:亚马逊广告底层逻辑大重构
大数据·人工智能·算法·重构·亚马逊·防关联
云老大TG:@yunlaoda3601 小时前
开通华为云国际站代理商的UCS服务需要哪些资质?
大数据·数据库·华为云·云计算
百***24371 小时前
GPT5.1 vs Gemini 3.0 Pro 全维度对比及快速接入实战
大数据·人工智能·gpt
天远Date Lab1 小时前
Java微服务实战:聚合型“全能小微企业报告”接口的调用与数据清洗
java·大数据·python·微服务
Elastic 中国社区官方博客1 小时前
Elasticsearch:构建一个 AI 驱动的电子邮件钓鱼检测
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
金融小师妹2 小时前
AI量化视角:美11月CPI数据冲击下的美联储降息预期鸽派与资产定价重构
大数据·人工智能·深度学习