分布式搜索（Elasticsearch）深入用法

数据聚合

聚合的种类

DSL实现聚合

桶聚合

实现elasticsearch与数据库数据同步

数据聚合

聚合的种类

聚合可以实现对文档数据的统计、分析、运算。聚合常见的有三类：

桶聚合：用来对文档做分组

TermAggregation:按照文档字段值分组

Date Histogram：按照日期阶梯分组，例如一周为一组，或者一月为一组

度量聚合：用以计算一些值，比如：最大值、最小值、平均值等

Avg：求平均值

Max：求最大值

Min：求最小值

Stats：同时求max、min、avg、sun等

管道聚合：其它聚合结果为基础做聚合

参与聚合的字段类型必须是：

keyword

数值

日期

布尔

DSL实现聚合

桶聚合

默认情况下，桶聚合会统计桶内的文档数量，记为_count，并且按照_count 降序排序。我们可以修改结果排序方式：

默认情况下，桶聚合是对索引库的所有文档做聚合，我们可以限定要聚合的文档范围，只要添加query条件即可：

度量聚合

例如，我们要求获取每个品牌的用户评分的min、max、avg等值.

RestAPI实现聚合

聚合请求的构造

聚合结果的解析

多条件聚合

多条件聚合构建

结果解析

自动补全

拼音分词器

使用拼音分词

要实现根据字母做补全，就必须对文档按照拼音分词。插件：infinilabs/analysis-pinyin: 🛵 This Pinyin Analysis plugin is used to do conversion between Chinese characters and Pinyin.

下载完将压缩包解压到es的plugins目录即可

自定义分词器

Elasticsearch 中分词器（Analyzer）的组成包含三部分：

Character Filters（字符过滤器）
- 在 Tokenizer 之前对原始文本进行预处理。
- 例如：删除特殊字符、替换字符（如将 & 替换为 and）。
Tokenizer（分词器）
- 将文本按照特定规则切割成词条（Term）。
- 例如：
  - keyword：不分词，将整个文本作为一个词条。
  - ik_smart：智能切分（粗粒度分词）。
Token Filters（词条过滤器）
- 对 Tokenizer 输出的词条进行进一步处理。
- 例如：大小写转换、同义词处理、拼音处理等。