Elasticsearch:聚合操作

这里写目录标题

一、聚合的概述

聚合(aggregations)可以让我们及其方便的实现对数据的统计、分析、运算。例如:

  • 什么品牌的手机最受欢迎
  • 这些手机的平均价格、最高价格、最低价格
  • 这些手机每月的销售情况如何

使用场景

  • 电商平台的销售分析。
  • 社交媒体的用户行为分析。
  • 物流企业的运输分析。
  • 金融企业的交易分析。
  • 只能家具设备监控分析。

二、聚合的分类

1、指标聚合(Metric Aggregation)

  • 单值分析:只输出一个分析结果
    • min、max、avg、sum。
    • Cardinality(类似distinct Count)。
  • 多值分析:输出多个分析结果
  • stats(统计),extended stats。
  • percentile(百分位),percentile rank。
  • top hits(排在前面的示例)。

2、桶聚合(Bucket Aggregation)

按照一定的规则,将文档分配到不同的通中,从而达到分类的目的。ES提供的一些常见Bucket Aggregation。

  • Terms,需要字段支持fielddata

    • keyword默认支持fielddata
    • text需要在Mapping中开启fielddata,会按照分词后的结果进行分桶。
  • 数字类型

    • Range / Data Range。
    • Histogram(直方图) / Date Histogram。
  • 支持嵌套:也就在桶里再做分桶。

3、管道聚合(Pipeline Aggregation)

支持对聚合分析的结果,再次进行聚合分析。Pipeline的分析结果会输出到原结果中,根据位置的不同,分为两类:

  • Sibling - 结果和现有分析结果同级
    • Max,min, Avg&Sum Bucket
    • Stats, Extended status Bucket
    • Percentiles Bucket
  • Parent - 结果内嵌到现有的聚合分析结果之中
    • Derivative(求导)
    • Cumultive Sum(累计求和)
    • Moving Function(移动平均值)

三、ES聚合分析不精准原因分析

Elasticsearch在对海量数据进行聚合分析的时候损失搜索的精准度来满足实时性的需求。

四、聚合性能优化

1、ES聚合不精确的解决方案

  • 方案一:设置主分片为1。
    适用场景:数据量小的小集群规模业务场景。
  • 方案二:调大shard_size值。
    设置shard_size比较大的值,官方推荐:size*1.5+10。shard_size值越大,结果越趋于精准聚合结果值。此外,还可以通过show_term_doc_count_error参数显示最差情况下的错误值,用于辅助确定shard_size大小。
    • size:是聚合结果的返回值,客户期望返回聚合排名前三,size值就是3.
    • shard_size:每个分片上聚合的数据条数。shard_size原则上要大于等于size。
      适用场景:数据量大,分片数多的集群业务场景。
  • 方案三:将size设置为全量值,来解决精度问题。
    将size设置为2的32次方减去1也就是分片支持的最大值,来解决精度问题。
    原因:1.x版本,size等于0代表全部,高版本取消0值,所以设置了最大值(大于业务的全量值)。
    全量带来的弊端就是:如果分片数量极大,这样做会消耗巨大的CPU资源来排序,而且可能会阻塞网络。

适用场景:对聚合精准度要求极高的业务场景,由于性能问题,不推荐使用。

  • 方案四:使用clickhouse / spark进行精准聚合。
    适用场景:数据量非常大,聚合精准度要求高、响应速度快的业务场景。

2、ES聚合性能优化

(1)插入数据时对索引进行预排序

  • index sorting(索引排序)可用于在插入时对索引进行预排序,而不是在查询时再对索引进行排序,这将提高范围查询(range query)和排序操作的性能。
  • 在Elasticsearch中创建新索引时,可以配置如何对每个分片内的段进行排序。

注意:预排序将增加Elasticsearch写入的成本。在某些用户特定场景下,开启索引排序会导致大约40%~50%的写性能下降。也就是说,如果用户场景更关注写性能的业务,开启索引预排序不是一个很好的选择。

(2)适用节点查询缓存

节点查询缓存(Node query cache)可用于有效缓存过滤器(filter)操作的结果。如果多次执行同一个filter操作,这将很有效,但是即便更改过滤器中的某一个值,也将意味着需要计算新的过滤器结果。

你可以执行一个带有过滤器查询额搜索请求,Elasticsearch将自动尝试使用节点查询缓存来优化性能。例如,如果你想缓存一个基于特定字段值的过滤查询。

(3)适用分片请求缓存

聚合操作中,设置size为0,就会使用分片请求缓存缓存结果。size=0的含义是:只返回聚合结果,不返回查询结果。

(4)拆分聚合,使聚合并行化

Elasticsearch查询条件中同时有多个条件聚合,默认情况下聚合并不是并行运行的。当为每个聚合提供自己的查询并行执行msearch时,性能会有显著提升。因此,在CPU资源不是瓶颈的前提下,如果想缩短响应时间,可以将多个聚合拆分为多个查询,借助:msearch实现并行聚合。

相关推荐
LaughingZhu7 分钟前
PH热榜 | 2025-02-23
前端·人工智能·经验分享·搜索引擎·产品运营
大数据追光猿9 小时前
Python应用算法之贪心算法理解和实践
大数据·开发语言·人工智能·python·深度学习·算法·贪心算法
人类群星闪耀时10 小时前
物联网与大数据:揭秘万物互联的新纪元
大数据·物联网·struts
risc12345610 小时前
【Elasticsearch】Search Templates(搜索模板)
elasticsearch
桃林春风一杯酒16 小时前
HADOOP_HOME and hadoop.home.dir are unset.
大数据·hadoop·分布式
桃木山人17 小时前
BigData File Viewer报错
大数据·java-ee·github·bigdata
B站计算机毕业设计超人17 小时前
计算机毕业设计Python+DeepSeek-R1高考推荐系统 高考分数线预测 大数据毕设(源码+LW文档+PPT+讲解)
大数据·python·机器学习·网络爬虫·课程设计·数据可视化·推荐算法
数造科技17 小时前
紧随“可信数据空间”政策风潮,数造科技正式加入开放数据空间联盟
大数据·人工智能·科技·安全·敏捷开发
逸Y 仙X20 小时前
Git常见命令--助力开发
java·大数据·git·java-ee·github·idea
元气满满的热码式21 小时前
logstash中的input插件(http插件,graphite插件)
网络·网络协议·http·elasticsearch·云原生