Elasticsearch Intervals Query
返回基于匹配术语的顺序和接近度的文档。
intervals 查询使用 匹配规则 ,这些规则由一小组定义构建而成。这些规则然后应用于指定 field 中的术语。
这些定义生成覆盖文本中术语的最小间隔序列。这些间隔可以进一步由父源组合和过滤。
以下 intervals 查询返回包含 my favorite food(没有任何间隔),后跟 hot water 或 cold porridge 的文档。查询应用于 my_text 字段。
这个查询将匹配 my_text 值为 my favorite food is cold porridge,但不匹配 when it's cold my favorite food is porridge。
JSON复制
POST _search
{
"query": {
"intervals" : {
"my_text" : {
"all_of" : {
"ordered" : true,
"intervals" : [
{
"match" : {
"query" : "my favorite food",
"max_gaps" : 0,
"ordered" : true
}
},
{
"any_of" : {
"intervals" : [
{ "match" : { "query" : "hot water" } },
{ "match" : { "query" : "cold porridge" } }
]
}
}
]
}
}
}
}
}
Intervals 查询的顶级参数
<field>
(必需,规则对象)您希望搜索的字段。
此参数的值是一个规则对象,用于基于匹配术语、顺序和接近度匹配文档。
有效的规则包括:
-
match -
prefix -
wildcard -
regexp -
fuzzy -
range -
all_of -
any_of
match 规则参数
match 规则匹配分析过的文本。
-
query:- (必需,字符串)您希望在提供的
<field>中找到的文本。
- (必需,字符串)您希望在提供的
-
max_gaps:-
(可选,整数)匹配术语之间的最大位置数。超过此距离的术语不被视为匹配。默认值为
-1。 -
如果未指定或设置为
-1,则匹配没有宽度限制。如果设置为0,术语必须相邻。
-
-
ordered:- (可选,布尔值)如果为
true,匹配术语必须按指定顺序出现。默认值为false。
- (可选,布尔值)如果为
-
analyzer:- (可选,字符串)用于分析
query中术语的分析器。默认值为顶级<field>的分析器。
- (可选,字符串)用于分析
-
filter:- (可选,间隔过滤规则对象)可选的间隔过滤器。
-
use_field:- (可选,字符串)如果指定,则从此字段匹配间隔,而不是顶级
<field>。术语使用此字段的搜索分析器进行分析。这允许您跨多个字段进行搜索,就像它们是同一个字段一样;例如,您可以将相同的文本索引到词干和非词干字段中,并搜索词干标记附近的非词干标记。
- (可选,字符串)如果指定,则从此字段匹配间隔,而不是顶级
prefix 规则参数
prefix 规则匹配以指定字符集开头的术语。此前缀可以扩展以匹配最多 indices.query.bool.max_clause_count 搜索设置术语。如果前缀匹配更多术语,Elasticsearch 将返回错误。您可以在字段映射中使用 index-prefixes 选项来避免此限制。
-
prefix:- (必需,字符串)您希望在顶级
<field>中找到的术语的起始字符。
- (必需,字符串)您希望在顶级
-
analyzer:- (可选,字符串)用于规范化
prefix的分析器。默认值为顶级<field>的分析器。
- (可选,字符串)用于规范化
-
use_field:- (可选,字符串)如果指定,则从此字段匹配间隔,而不是顶级
<field>。
- (可选,字符串)如果指定,则从此字段匹配间隔,而不是顶级
wildcard 规则参数
wildcard 规则使用通配符模式匹配术语。此模式可以扩展以匹配最多 indices.query.bool.max_clause_count 搜索设置术语。如果模式匹配更多术语,Elasticsearch 将返回错误。
-
pattern:-
(必需,字符串)用于查找匹配术语的通配符模式。
-
此参数支持两个通配符操作符:
-
?,匹配任何单个字符 -
*,匹配零个或多个字符,包括空字符
-
-
-
analyzer:- (可选,字符串)用于规范化
pattern的分析器。默认值为顶级<field>的分析器。
- (可选,字符串)用于规范化
-
use_field:- (可选,字符串)如果指定,则从此字段匹配间隔,而不是顶级
<field>。
- (可选,字符串)如果指定,则从此字段匹配间隔,而不是顶级
regexp 规则参数
regexp 规则使用正则表达式模式匹配术语。此模式可以扩展以匹配最多 indices.query.bool.max_clause_count 搜索设置术语。如果模式匹配更多术语,Elasticsearch 将返回错误。
-
pattern:-
(必需,字符串)用于查找匹配术语的正则表达式模式。
-
避免使用通配符模式,如
.*或.*?+。这可能会增加找到匹配术语所需的迭代次数,并降低搜索性能。
-
-
analyzer:- (可选,字符串)用于规范化
pattern的分析器。默认值为顶级<field>的分析器。
- (可选,字符串)用于规范化
-
use_field:- (可选,字符串)如果指定,则从此字段匹配间隔,而不是顶级
<field>。
- (可选,字符串)如果指定,则从此字段匹配间隔,而不是顶级
fuzzy 规则参数
fuzzy 规则匹配与提供的术语相似的术语,编辑距离由 Fuzziness 定义。如果模糊扩展匹配的术语超过 indices.query.bool.max_clause_count 搜索设置术语,Elasticsearch 将返回错误。
-
term:- (必需,字符串)要匹配的术语。
-
prefix_length:- (可选,整数)创建扩展时保持不变的起始字符数。默认值为
0。
- (可选,整数)创建扩展时保持不变的起始字符数。默认值为
-
transpositions:- (可选,布尔值)指示编辑是否包括两个相邻字符的换位(ab → ba)。默认值为
true。
- (可选,布尔值)指示编辑是否包括两个相邻字符的换位(ab → ba)。默认值为
-
fuzziness:- (可选,字符串)允许匹配的最大编辑距离。参见 Fuzziness 以获取有效值和更多信息。默认值为
auto。
- (可选,字符串)允许匹配的最大编辑距离。参见 Fuzziness 以获取有效值和更多信息。默认值为
-
analyzer:- (可选,字符串)用于规范化
term的分析器。默认值为顶级<field>的分析器。
- (可选,字符串)用于规范化
-
use_field:- (可选,字符串)如果指定,则从此字段匹配间隔,而不是顶级
<field>。
- (可选,字符串)如果指定,则从此字段匹配间隔,而不是顶级
range 规则参数
range 规则匹配包含在提供范围内的术语。此范围可以扩展以匹配最多 indices.query.bool.max_clause_count 搜索设置术语。如果范围匹配更多术语,Elasticsearch 将返回错误。
-
gt:- (可选,字符串)大于:匹配大于提供术语的术语。
-
gte:- (可选,字符串)大于或等于:匹配大于或等于提供术语的术语。
-
lt:- (可选,字符串)小于:匹配小于提供术语的术语。
-
lte:- (可选,字符串)小于或等于:匹配小于或等于提供术语的术语。
all_of 规则参数
all_of 规则返回跨多个其他规则组合的匹配项。
-
intervals:- (必需,规则对象数组)要组合的规则数组。所有规则必须在文档中生成匹配项,整体源才能匹配。
-
max_gaps:- (可选,整数)匹配术语之间的最大位置数。规则生成的间隔超过此距离的不被视为匹配。默认值为
-1。
- (可选,整数)匹配术语之间的最大位置数。规则生成的间隔超过此距离的不被视为匹配。默认值为
-
ordered:- (可选,布尔值)如果为
true,规则生成的间隔应按指定顺序出现。默认值为false。
- (可选,布尔值)如果为
-
filter:- (可选,间隔过滤规则对象)用于过滤返回间隔的规则。
any_of 规则参数
any_of 规则返回其子规则生成的任何间隔。
-
intervals:- (必需,规则对象数组)要匹配的规则数组。
-
filter:- (可选,间隔过滤规则对象)用于过滤返回间隔的规则。
filter 规则参数
filter 规则基于查询返回间隔。有关示例,请参见过滤器示例。
-
after:- (可选,查询对象)返回跟随
filter规则间隔的间隔的查询。
- (可选,查询对象)返回跟随
-
before:- (可选,查询对象)返回在
filter规则间隔之前发生的间隔的查询。
- (可选,查询对象)返回在
-
contained_by:- (可选,查询对象)返回被
filter规则间隔包含的间隔的查询。
- (可选,查询对象)返回被
-
containing:- (可选,查询对象)返回包含
filter规则间隔的间隔的查询。
- (可选,查询对象)返回包含
-
not_contained_by:- (可选,查询对象)返回不被
filter规则间隔包含的间隔的查询。
- (可选,查询对象)返回不被
-
not_containing:- (可选,查询对象)返回不包含
filter规则间隔的间隔的查询。
- (可选,查询对象)返回不包含
-
not_overlapping:- (可选,查询对象)返回不与
filter规则间隔重叠的间隔的查询。
- (可选,查询对象)返回不与
-
overlapping:- (可选,查询对象)返回与
filter规则间隔重叠的间隔的查询。
- (可选,查询对象)返回与
-
script:- (可选,脚本对象)返回匹配文档的脚本。此脚本必须返回布尔值
true或false。
- (可选,脚本对象)返回匹配文档的脚本。此脚本必须返回布尔值
示例
以下查询包含一个 filter 规则。它返回包含 hot 和 porridge 且两者之间不超过 10 个位置的文档,且两者之间没有 salty。
JSON复制
POST _search
{
"query": {
"intervals" : {
"my_text" : {
"match" : {
"query" : "hot porridge",
"max_gaps" : 10,
"filter" : {
"not_containing" : {
"match" : {
"query" : "salty"
}
}
}
}
}
}
}
}
脚本过滤器
您可以使用脚本根据间隔的起始位置、结束位置和内部间隔数过滤间隔。以下 filter 脚本使用 interval 变量及其 start、end 和 gaps 方法:
JSON复制
POST _search
{
"query": {
"intervals" : {
"my_text" : {
"match" : {
"query" : "hot porridge",
"filter" : {
"script" : {
"source" : "interval.start > 10 && interval.end < 20 && interval.gaps == 0"
}
}
}
}
}
}
}
注意事项
-
最小化间隔:
intervals查询始终最小化间隔,以确保查询可以在线性时间内运行。这有时会导致意外结果,特别是在使用max_gaps限制或过滤器时。例如,考虑以下查询,搜索hot porridge中包含的salty:
JSON复制
POST _search { "query": { "intervals" : { "my_text" : { "match" : { "query" : "salty", "filter" : { "contained_by" : { "match" : { "query" : "hot porridge" } } } } } } } }- 此查询不会匹配包含
hot porridge is salty porridge的文档,因为hot porridge的匹配查询返回的间隔仅覆盖此文档中的前两个术语,这些术语不与覆盖salty的间隔重叠。