Elasticsearch 桶(Bucket)聚合详解及示例

在 Elasticsearch 中,桶(Bucket)聚合是一种强大的工具,它允许我们对数据进行分组并统计每组的数量。这种聚合类型对于理解数据的分布和进行分组统计非常有用。本文将详细介绍 Elasticsearch 的桶聚合,并提供完整的示例和解释。

桶聚合基础

桶聚合通过将数据分入不同的桶中来工作。每个桶代表一个分组,分组的依据可以是字段值、日期范围或其他标准。Elasticsearch 中常见的桶聚合包括:

  • Terms Aggregation:基于字段的词条值进行分组。
  • Date Histogram Aggregation:基于日期的范围进行分组。

聚合的必要元素

  • 聚合名称:为聚合定义的名称,用于在结果中标识。
  • 聚合类型 :指定使用的聚合类型,如 terms
  • 聚合字段:指定聚合应用的字段。

聚合的可配置属性

  • size:指定返回的桶数量。
  • order :指定桶的排序方式,可以是基于 _count(每个桶中的文档数量)或其他度量聚合。
  • field:参与聚合的字段。

示例:Terms Aggregation

假设我们有一个酒店数据索引,我们想要统计不同酒店品牌的分布情况。

DSL 查询

json 复制代码
GET /hotel/_search
{
  "size": 0,
  "aggs": {
    "brandAgg": {
      "terms": {
        "field": "brand",
        "size": 10
      }
    }
  }
}

解释

  • size: 0 表示我们不需要原始文档的列表,只关心聚合结果。
  • aggs:定义聚合的区域。
  • brandAgg:为聚合操作定义的名称。
  • terms:指定聚合类型为词条聚合。
  • field: "brand":指定聚合字段为 brand
  • size: 10:限制返回的桶数量,这里最多返回 10 个品牌。

桶聚合结果排序

默认情况下,桶聚合结果会根据 _count(桶内的文档数量)降序排序。我们可以修改排序方式:

DSL 查询

json 复制代码
GET /hotel/_search
{
  "size": 0,
  "aggs": {
    "brandAgg": {
      "terms": {
        "field": "brand",
        "order": {
          "_count": "asc"
        },
        "size": 20
      }
    }
  }
}

解释

  • order:指定排序方式,这里设置为按照 _count 升序排列。

桶聚合限定范围

桶聚合可以结合查询条件 query 来限定聚合的文档范围:

DSL 查询

json 复制代码
GET /hotel/_search
{
  "query": {
    "range": {
      "price": {
        "lte": 200
      }
    }
  },
  "size": 0,
  "aggs": {
    "brandAgg": {
      "terms": {
        "field": "brand",
        "size": 20
      }
    }
  }
}

解释

  • query:定义查询条件,这里使用 range 查询来限定价格不超过 200 的文档。
  • 聚合将只针对这些文档进行。

结语

桶聚合是 Elasticsearch 中进行数据分组统计的重要工具。通过本篇文章的示例和解释,你应该对如何使用桶聚合有了更深入的理解。无论是统计不同品牌的数量,还是根据特定条件对数据进行分组,桶聚合都能提供灵活且强大的支持。掌握桶聚合的使用,将有助于你更有效地进行数据分析和探索。希望本文能够帮助你在实际项目中更好地利用 Elasticsearch 的聚合功能。

相关推荐
Elasticsearch7 小时前
如何使用 Agent Builder 排查 Kubernetes Pod 重启和 OOMKilled 事件
elasticsearch
Elasticsearch1 天前
通用表达式语言 ( CEL ): CEL 输入如何改进 Elastic Agent 集成中的数据收集
elasticsearch
武子康1 天前
大数据-236 离线数仓 - 会员指标验证、DataX 导出与广告业务 ODS/DWD/ADS 全流程
大数据·后端·apache hive
武子康2 天前
大数据-235 离线数仓 - 实战:Flume+HDFS+Hive 搭建 ODS/DWD/DWS/ADS 会员分析链路
大数据·后端·apache hive
DianSan_ERP3 天前
电商API接口全链路监控:构建坚不可摧的线上运维防线
大数据·运维·网络·人工智能·git·servlet
够快云库3 天前
能源行业非结构化数据治理实战:从数据沼泽到智能资产
大数据·人工智能·机器学习·企业文件安全
AI周红伟3 天前
周红伟:智能体全栈构建实操:OpenClaw部署+Agent Skills+Seedance+RAG从入门到实战
大数据·人工智能·大模型·智能体
B站计算机毕业设计超人3 天前
计算机毕业设计Django+Vue.js高考推荐系统 高考可视化 大数据毕业设计(源码+LW文档+PPT+详细讲解)
大数据·vue.js·hadoop·django·毕业设计·课程设计·推荐算法
计算机程序猿学长3 天前
大数据毕业设计-基于django的音乐网站数据分析管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等)
大数据·django·课程设计
B站计算机毕业设计超人3 天前
计算机毕业设计Django+Vue.js音乐推荐系统 音乐可视化 大数据毕业设计 (源码+文档+PPT+讲解)
大数据·vue.js·hadoop·python·spark·django·课程设计