【Elasticsearch】为一个字段配置多个分析器

在Elasticsearch中,混合精确搜索与词干提取(Mixing Exact Search with Stemming)是一个常见的需求,尤其是在处理自然语言文本时。词干提取(Stemming)是一种语言处理技术,用于将单词的不同形态(如单复数、动词的不同时态)归一化为基本形式(词干)。例如,"skiing"、"skis"和"ski"都可能被归一化为"ski"。这种技术有助于提高搜索的灵活性和召回率,但也可能导致用户无法精确搜索到特定的单词形式。

为了同时支持词干提取和精确搜索,Elasticsearch提供了一种解决方案,即通过多字段(multi-field)和`quote_field_suffix`参数来实现。以下是详细说明:


1.多字段(Multi-Field)的使用

在Elasticsearch中,可以通过为同一个字段定义多个子字段(multi-field)来实现不同的分析方式。例如,对于一个字段`body`,可以定义两个子字段:

• `body`:使用默认的词干提取分析器(如`english`分析器)。

• `body.exact`:使用不进行词干提取的分析器(如`english_exact`分析器)。

这样,用户可以根据需要选择使用词干提取的字段(`body`)或精确匹配的字段(`body.exact`)。

示例:创建索引和字段

```json

PUT /example_index

{

"settings": {

"analysis": {

"analyzer": {

"english_exact": {

"tokenizer": "standard",

"filter": ["lowercase"]

}

}

}

},

"mappings": {

"properties": {

"body": {

"type": "text",

"analyzer": "english",

"fields": {

"exact": {

"type": "text",

"analyzer": "english_exact"

}

}

}

}

}

}

```

• `body`字段:使用`english`分析器,会进行词干提取。

• `body.exact`字段:使用`english_exact`分析器,仅进行小写处理,不进行词干提取。


2.`quote_field_suffix`参数的使用

虽然多字段可以解决精确搜索和词干提取的问题,但直接让用户选择字段可能会增加复杂性。Elasticsearch提供了一个更优雅的解决方案:`quote_field_suffix`参数。

`quote_field_suffix`允许用户在查询中通过引号(`"`)指定需要精确匹配的单词。Elasticsearch会自动将引号内的单词重定向到指定的字段(如`.exact`字段),而其他单词则使用默认字段(如`body`字段)。

示例:使用`quote_field_suffix`进行查询

假设我们有以下文档:

```json

PUT /example_index/_doc/1

{

"body": "Ski resort"

}

PUT /example_index/_doc/2

{

"body": "A pair of skis"

}

```

• 查询1:使用词干提取搜索

查询`ski`时,返回所有包含`ski`、`skis`或`skiing`的文档。

```json

GET /example_index/_search

{

"query": {

"simple_query_string": {

"fields": ["body"],

"query": "ski"

}

}

}

```

结果:

```json

{

"hits": [

{"_source": {"body": "Ski resort"}},

{"_source": {"body": "A pair of skis"}}

]

}

```

• 查询2:精确搜索

使用引号指定精确匹配:

```json

GET /example_index/_search

{

"query": {

"simple_query_string": {

"fields": ["body"],

"quote_field_suffix": ".exact",

"query": "\"ski\""

}

}

}

```

结果:

```json

{

"hits": [

{"_source": {"body": "Ski resort"}}

]

}

```

在这个例子中,`"ski"`被放在引号内,因此Elasticsearch会将其重定向到`body.exact`字段,从而实现精确匹配。


3.混合使用精确搜索和词干提取

`quote_field_suffix`参数的一个强大之处在于,它允许用户在同一个查询中混合使用精确搜索和词干提取。例如:

```json

GET /example_index/_search

{

"query": {

"simple_query_string": {

"fields": ["body"],

"quote_field_suffix": ".exact",

"query": "\"ski\" resort"

}

}

}

```

• `"ski"`:精确匹配,使用`body.exact`字段。

• `resort`:使用词干提取,使用`body`字段。

这种混合方式使得用户可以根据需要灵活地选择精确匹配和模糊匹配,而无需手动指定字段。


4.总结

在Elasticsearch中,混合精确搜索与词干提取是一种常见的需求。通过以下方式可以实现:

• 多字段(Multi-Field):为同一个字段定义多个子字段,分别用于词干提取和精确匹配。

• `quote_field_suffix`参数:允许用户通过引号指定精确匹配的单词,同时保留词干提取的功能。

这种设计不仅提高了搜索的灵活性,还简化了用户的查询体验,使得用户可以根据需要灵活选择精确匹配或模糊匹配。

相关推荐
Elasticsearch20 小时前
使用 Jina 远程 MCP 服务器的 Agentic 工作流
elasticsearch
Elastic 中国社区官方博客21 小时前
在 Elastic 中使用 OpenTelemetry 内容包可视化 OpenTelemetry 数据
大数据·开发语言·数据库·elasticsearch·搜索引擎
Arva .1 天前
ES 面试
elasticsearch·面试
鸿蒙程序媛1 天前
【工具汇总】git 常用命令行汇总
大数据·git·elasticsearch
Elasticsearch1 天前
多大才算太大?Elasticsearch 容量规划最佳实践
elasticsearch
Elastic 中国社区官方博客1 天前
用于 IntelliJ IDEA 的新 ES|QL 插件
java·大数据·数据库·ide·elasticsearch·搜索引擎·intellij-idea
大志哥1231 天前
整理安装ES和Logstash
大数据·elasticsearch·搜索引擎
Slow菜鸟1 天前
Git Worktree 使用教程
大数据·git·elasticsearch
大气层煮月亮2 天前
RAG 检索技术 - Elasticsearch
大数据·elasticsearch·搜索引擎
Dontla2 天前
异步知识库索引管线:与在线问答链路解耦架构介绍(离线构建,在线查询)分层索引、Elasticsearch
elasticsearch·架构