ES索引检索课程名称时,同时支持模糊搜索和精准搜索

一、背景

课程列表有两个名称类似的课程,例如:

高中数学-预科拓展-高二上

高中数学预科拓展-高二上

当搜索关键字是"高中数学预科拓展-高二上" 或 "高中数学-预科拓展-高二上",搜索结果都能是上面两个课程。

而业务使用方希望看到的效果是,当搜索"高中数学预科拓展-高二上"时,只看到课程名称等于"高中数学预科拓展-高二上"的课程,而不展示另外那个"双胞胎"课程--"高中数学-预科拓展-高二上"。

也就是说,需要对课程名称进行精准匹配,而非模糊匹配。

但是,终端用户的需求是对课程名称进行模糊匹配。

所以,我们对接口的改造是,不同的接口,传入不同的参数,区分是否模糊搜索。

二、es索引检索的逻辑

1、现状

json 复制代码
  "mappings" : {
      "_doc" : {
        "properties" : {
          "courseName" : {
            "type" : "text"
          }
       }
   }

courseName是text类型的字段。

java的写法

es将自动对课程名称courseName进行分词,

java 复制代码
BoolQueryBuilder nameQueryBuilder = QueryBuilders.boolQuery();
for (String keyword : keywords) {
   nameQueryBuilder = nameQueryBuilder.should(QueryBuilders.matchPhraseQuery("courseName", keyword));
}

在 Elasticsearch 的 match_phrase 查询里,横杆 - 属于默认的停用字符(token filter 中的 standard 会把 - 当成分隔符),因此:

关键词1: 高中数学-预科拓展-高二

在倒排索引里会被拆成:

高中数学、预科拓展、高二

关键词1: 高中数学预科拓展高二

如果用的是 ik_max_word / standard 等分词器,同样也会被拆成:

高中数学、预科拓展、高二

所以两份文档的 token 列表完全一致,match_phrase 查询的 position 序列也相同,于是返回结果一样。

2、解决办法

不需要改原来的 text 字段,只要给它补一个 keyword 子字段即可;

已有数据也不会丢失,ES 会自动重新生成新子字段的索引。

json 复制代码
PUT /share_course_index/_mapping/_doc
{
  "properties": {
    "courseName": {
      "type": "text",
      "fields": {
        "keyword": {
          "type": "keyword",
          "ignore_above": 256
        }
      }
    }
  }
}

原 courseName 仍是 text,旧查询不受影响。

新增 courseName.keyword 用来做精准匹配,区分横杆、空格、大小写。

  • 修复旧数据

之后写入的数据会自动拥有 keyword 子字段;

json 复制代码
# 旧数据需要执行一次
POST /course/_update_by_query

让 ES 把已有文档重新扫一遍,生成 keyword 倒排索引即可(耗时视数据量而定)。

3、java代码

java 复制代码
// 是否模糊匹配
boolean isFuzzySearch;

BoolQueryBuilder nameQueryBuilder = QueryBuilders.boolQuery();
for (String keyword : keywords) {
    if (isFuzzySearch) {
        // 模糊搜索
        nameQueryBuilder.should(QueryBuilders.matchPhraseQuery("courseName", keyword));
    } else {
        // 精准搜索
        nameQueryBuilder.should(QueryBuilders.termQuery("courseName.keyword", keyword));
    }
}

三、总结

别忘记了修复旧数据,es给courseName字段新增了keyword类型的字段,默认为空。

至此,课程名称的不同,做到了精准搜索,相差的横杆不会被es索引忽略掉。

相关推荐
GetcharZp2 小时前
玩转 Linux 机器视觉:手把手带你搞定 Ubuntu 下海康工业相机 C++ SDK
后端
星星在线5 小时前
MusicFree:一个「All in One」的个人音乐服务器,让听歌回归简单
前端·后端
IT_陈寒6 小时前
Redis的SETNX并发问题让我加了三天班
前端·人工智能·后端
demo007x6 小时前
Docling 文档转换以及技术架构分析
前端·后端·程序员
袋鱼不重7 小时前
我的神奇同事,AI 用多了居然写了个 Open In Codex
前端·后端·ai编程
大树887 小时前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
用户8356290780517 小时前
使用 Python 操作 Word 内容控件
后端·python
像我这样帅的人丶你还7 小时前
啥? 前端也要会干Java?🛵🛵🛵
后端
Hommy887 小时前
【剪映小助手】添加贴纸接口(Add Sticker)
后端·github·剪映小助手·视频剪辑自动化·剪映api
大志哥1238 小时前
ES和Logstash日志链路系统上线后遭遇切片爆炸(解决)
大数据·elasticsearch