【Elasticsearch】为一个字段配置多个分析器

在Elasticsearch中,混合精确搜索与词干提取(Mixing Exact Search with Stemming)是一个常见的需求,尤其是在处理自然语言文本时。词干提取(Stemming)是一种语言处理技术,用于将单词的不同形态(如单复数、动词的不同时态)归一化为基本形式(词干)。例如,"skiing"、"skis"和"ski"都可能被归一化为"ski"。这种技术有助于提高搜索的灵活性和召回率,但也可能导致用户无法精确搜索到特定的单词形式。

为了同时支持词干提取和精确搜索,Elasticsearch提供了一种解决方案,即通过多字段(multi-field)和`quote_field_suffix`参数来实现。以下是详细说明:


1.多字段(Multi-Field)的使用

在Elasticsearch中,可以通过为同一个字段定义多个子字段(multi-field)来实现不同的分析方式。例如,对于一个字段`body`,可以定义两个子字段:

• `body`:使用默认的词干提取分析器(如`english`分析器)。

• `body.exact`:使用不进行词干提取的分析器(如`english_exact`分析器)。

这样,用户可以根据需要选择使用词干提取的字段(`body`)或精确匹配的字段(`body.exact`)。

示例:创建索引和字段

```json

PUT /example_index

{

"settings": {

"analysis": {

"analyzer": {

"english_exact": {

"tokenizer": "standard",

"filter": ["lowercase"]

}

}

}

},

"mappings": {

"properties": {

"body": {

"type": "text",

"analyzer": "english",

"fields": {

"exact": {

"type": "text",

"analyzer": "english_exact"

}

}

}

}

}

}

```

• `body`字段:使用`english`分析器,会进行词干提取。

• `body.exact`字段:使用`english_exact`分析器,仅进行小写处理,不进行词干提取。


2.`quote_field_suffix`参数的使用

虽然多字段可以解决精确搜索和词干提取的问题,但直接让用户选择字段可能会增加复杂性。Elasticsearch提供了一个更优雅的解决方案:`quote_field_suffix`参数。

`quote_field_suffix`允许用户在查询中通过引号(`"`)指定需要精确匹配的单词。Elasticsearch会自动将引号内的单词重定向到指定的字段(如`.exact`字段),而其他单词则使用默认字段(如`body`字段)。

示例:使用`quote_field_suffix`进行查询

假设我们有以下文档:

```json

PUT /example_index/_doc/1

{

"body": "Ski resort"

}

PUT /example_index/_doc/2

{

"body": "A pair of skis"

}

```

• 查询1:使用词干提取搜索

查询`ski`时,返回所有包含`ski`、`skis`或`skiing`的文档。

```json

GET /example_index/_search

{

"query": {

"simple_query_string": {

"fields": ["body"],

"query": "ski"

}

}

}

```

结果:

```json

{

"hits": [

{"_source": {"body": "Ski resort"}},

{"_source": {"body": "A pair of skis"}}

]

}

```

• 查询2:精确搜索

使用引号指定精确匹配:

```json

GET /example_index/_search

{

"query": {

"simple_query_string": {

"fields": ["body"],

"quote_field_suffix": ".exact",

"query": "\"ski\""

}

}

}

```

结果:

```json

{

"hits": [

{"_source": {"body": "Ski resort"}}

]

}

```

在这个例子中,`"ski"`被放在引号内,因此Elasticsearch会将其重定向到`body.exact`字段,从而实现精确匹配。


3.混合使用精确搜索和词干提取

`quote_field_suffix`参数的一个强大之处在于,它允许用户在同一个查询中混合使用精确搜索和词干提取。例如:

```json

GET /example_index/_search

{

"query": {

"simple_query_string": {

"fields": ["body"],

"quote_field_suffix": ".exact",

"query": "\"ski\" resort"

}

}

}

```

• `"ski"`:精确匹配,使用`body.exact`字段。

• `resort`:使用词干提取,使用`body`字段。

这种混合方式使得用户可以根据需要灵活地选择精确匹配和模糊匹配,而无需手动指定字段。


4.总结

在Elasticsearch中,混合精确搜索与词干提取是一种常见的需求。通过以下方式可以实现:

• 多字段(Multi-Field):为同一个字段定义多个子字段,分别用于词干提取和精确匹配。

• `quote_field_suffix`参数:允许用户通过引号指定精确匹配的单词,同时保留词干提取的功能。

这种设计不仅提高了搜索的灵活性,还简化了用户的查询体验,使得用户可以根据需要灵活选择精确匹配或模糊匹配。

相关推荐
阿里云大数据AI技术1 小时前
真实案例复盘:从“三套烟囱”到 All in ES,这家企业如何砍掉 40%运维成本?
人工智能·elasticsearch·搜索引擎
Elasticsearch4 小时前
Elastic 即代码:自动化的不只是基础设施
elasticsearch
Dxy12393102165 小时前
如何基于 Elasticsearch 构建亿级相似图片搜索系统
大数据·elasticsearch·搜索引擎
paj1234567898 小时前
elasticsearch 导出数据命令
大数据·elasticsearch·搜索引擎
shaominjin1238 小时前
使用Git自带的SSH协议搭建git服务器
大数据·elasticsearch·搜索引擎
码--到成功8 小时前
elasticsearch同时启动两个冲突问题
大数据·elasticsearch·bisheng
CodeAmaz9 小时前
Elasticsearch 数据建模详解:nested vs parent-child
elasticsearch·数据扁平·netsted
一个很帅的帅哥9 小时前
部署chat-vue
大数据·git·elasticsearch
初次攀爬者9 小时前
知识库-向量化功能-EXCEL文件向量化
后端·elasticsearch
Elasticsearch9 小时前
使用 Elasticsearch 中的结构化输出创建可靠的 agents
elasticsearch