ES入门五：组合查询

带有组合功能的Api有以下几个：

Bool Query：布尔查询，可以组合多个过滤语句来过滤文档
Boosting Query：在postive块中指定匹配文档的语句，同时降低在negative块中也匹配的文档的得分，提供调整相关性算法的能力
constant_score Query：包装了一个过滤器查询，不进行算分
dis_max Query：返回匹配了一个或者多个查询语句的文档，但只将最佳匹配的评分作为相关性算法返回
function_score Query：支持使用函数来修改查询返回的分数

Bool Query

如其名，Bool Query使用1个或者多个布尔查询子句进行构建，每个子句都有一个类型，这些类型如下：

must：查询的内容必须在匹配的文档中出现，并且会进行相关性算法。简单来说就是与AND等价
filter：查询的内容必须在匹配的内容中出现，但不想must，filter的相关性算法是会被忽略的。因为其子句会在filter context中执行，所以其相关性算法会被忽略，并且子句将被考虑用作缓存**，简单来说就是与AND等价**
should：查询的内容应该在匹配的文档中出现，可以指定最小匹配的数量。简单来说**，就是与OR等价**
must_not：查询的内容不能在匹配的文档中出现。与filter一样其相关性算法会被忽略，简单来说与NOT 等价

需求一：must多条件查询（作者和出版日期） ! $image.png$ (https://img-blog.csdnimg.cn/img_convert/a8557000957942bf73472abb3b8dcf10.png)

返回结果：
! $image.png$ (https://img-blog.csdnimg.cn/img_convert/1f97c91bda03ea2f25e4019cd010606b.png)

需求二：should多条件查询（作者和日期）

返回结果：

当我们将这个minimum_should_match设置为1的时候，表示最小匹配子句查询为1的时候，看看返回结果是什么样：

需求三：must+filter查询（作者和日期）

返回结果：

可以明显的看出花费时间是不一样的

Boosting Query

Boosting Query可以指定两个块：positive块和negative块。可以在postive块指定匹配文档的语句，而在negative块中匹配的文档相关性算法会降低。相关性算法降低的程度将由negative_boost参数决定，其取值范围：【0,0, 1.0】

返回结果：

上面我们像查询书名中含有"linux"的文档，并且想让含有"programming"字样的文档的相关性降低一半。在negative块中匹配的文档，其相关性算分为：在postive中匹配是的算分* negative_boost

constant_score Query

这个之前已经讲过了，其包装了一个过滤器查询，不进行算分。使用Constant Score可以将query转换为filter，可以忽略相关性算法的环节，并且filter可以有效利用缓存，从而提高查询的性能

dis_max Query

disjunction max Query简称为dis_max, 就是分离最大化查询的意思。注意这个名字中的两个点：分离、最大化

disjunction（分离）的含义是：表示把同一个文档中的每个字段上的查询都分开，分吧进行算法操作
max（最大化）：是将多个字段查询的得分的最大值作为最终评分返回

将每个条件分开执行，最终返回最佳匹配的得分作为查询的算法结构返回

返回结果：

如上示例，我们在查询书名中出现"linux"或者书本简介中出现"kernel"的文档，而最终返回的相关性评分将以匹配"linux"或者匹配"kernel"中最大的那个评分为准

这里出现了tie_breaker, 我们再学习一下，当指定"tie_breaker"的时候，算法结果将按照下面的方式执行：

令算分最高的字段得分为s1

令其他匹配的字段的算分 * tie_breaker的和为s2

最终得分为：s1+s2

"tie_breaker" 的取值范围为： $0.0, 1.0$ 。当其为 0.0 的时候，按照上述公式来计算，表示使用最佳匹配字段的得分作为相关性算分。当其为 1.0 的时候，表示所有字段的得分同等重要。当其在 0.0 到 1.0 之间的时候，代表其他字段的得分也需要参与到总得分的计算当中去。通俗来说就是其他字段可以使用 "tie_breaker" 来进行"调整权重"

function_score Query

function_score Query允许你在查询结束以后去修改每一个匹配文档的相关性算法，所以使用算分函数可以改变或者替换原来的相关性算分结果

function_score Query提供一下几个算分函数：

script_score：利用自定义的脚本完全控制算分逻辑
weight：为每一个文档设置一个简单并且不会被规范化的权重
random_score: 为每个用户提供一个不同的随机算分，对结果进行排序
field_value_factor：使用文档字段的值来影响算分，例如将好评数量作为这个字段考虑因素
decay functions：衰减函数，以某个字段的值为标准，距离指定值越近，算分越高。例如我想要让书本价格越接近10元，算分越高排序越靠前

field_value_factor

field_value_factor的作用是用文档某个字段的值来影响相关性算分，其可以解决这样的需求：价格优惠的优先推荐，点赞数多的优点推荐、购买量多的优先推荐等

field_value_factor提供了以下几个参数选项：

field：文档的字段
factor：指定文档的值会乘以这个因子，默认为1
modifier：修改最终值的函数，其值可以为：none、log、log1p、log2p、ln、ln1p、ln2p、square、 sqrt、reciprocal，默认为 none。

看看下面这个示例：我想让书本的价格增加，相关性算法相应的降低：

返回结果：

算分过程

价格 x factor(1.2)
使用reciprocal，类似于 1/x，这里就是 1/（价格 x factor(1.2)）
再使用boost_mode：也就是新分 = 旧分 * 1/（价格 x factor(1.2)）

对于boost_mode，它有以下几种：

multiply: 算分与函数值的积
replace：使用函数值作为最终的结果
sum：算分与函数值的和
avg：算分与函数值的评分值
min：算分与函数值的最小值
max：算分与函数值的最大值

ES入门五：组合查询

Bool Query

需求一：must多条件查询（作者和出版日期） !image.png(https://img-blog.csdnimg.cn/img_convert/a8557000957942bf73472abb3b8dcf10.png)

需求二：should多条件查询（作者和日期）

需求三：must+filter查询（作者和日期）

Boosting Query

constant_score Query

dis_max Query

function_score Query

field_value_factor

random_score

需求一：must多条件查询（作者和出版日期） ! $image.png$ (https://img-blog.csdnimg.cn/img_convert/a8557000957942bf73472abb3b8dcf10.png)