ES索引检索课程名称时,同时支持模糊搜索和精准搜索

一、背景

课程列表有两个名称类似的课程,例如:

高中数学-预科拓展-高二上

高中数学预科拓展-高二上

当搜索关键字是"高中数学预科拓展-高二上" 或 "高中数学-预科拓展-高二上",搜索结果都能是上面两个课程。

而业务使用方希望看到的效果是,当搜索"高中数学预科拓展-高二上"时,只看到课程名称等于"高中数学预科拓展-高二上"的课程,而不展示另外那个"双胞胎"课程--"高中数学-预科拓展-高二上"。

也就是说,需要对课程名称进行精准匹配,而非模糊匹配。

但是,终端用户的需求是对课程名称进行模糊匹配。

所以,我们对接口的改造是,不同的接口,传入不同的参数,区分是否模糊搜索。

二、es索引检索的逻辑

1、现状

json 复制代码
  "mappings" : {
      "_doc" : {
        "properties" : {
          "courseName" : {
            "type" : "text"
          }
       }
   }

courseName是text类型的字段。

java的写法

es将自动对课程名称courseName进行分词,

java 复制代码
BoolQueryBuilder nameQueryBuilder = QueryBuilders.boolQuery();
for (String keyword : keywords) {
   nameQueryBuilder = nameQueryBuilder.should(QueryBuilders.matchPhraseQuery("courseName", keyword));
}

在 Elasticsearch 的 match_phrase 查询里,横杆 - 属于默认的停用字符(token filter 中的 standard 会把 - 当成分隔符),因此:

关键词1: 高中数学-预科拓展-高二

在倒排索引里会被拆成:

高中数学、预科拓展、高二

关键词1: 高中数学预科拓展高二

如果用的是 ik_max_word / standard 等分词器,同样也会被拆成:

高中数学、预科拓展、高二

所以两份文档的 token 列表完全一致,match_phrase 查询的 position 序列也相同,于是返回结果一样。

2、解决办法

不需要改原来的 text 字段,只要给它补一个 keyword 子字段即可;

已有数据也不会丢失,ES 会自动重新生成新子字段的索引。

json 复制代码
PUT /share_course_index/_mapping/_doc
{
  "properties": {
    "courseName": {
      "type": "text",
      "fields": {
        "keyword": {
          "type": "keyword",
          "ignore_above": 256
        }
      }
    }
  }
}

原 courseName 仍是 text,旧查询不受影响。

新增 courseName.keyword 用来做精准匹配,区分横杆、空格、大小写。

  • 修复旧数据

之后写入的数据会自动拥有 keyword 子字段;

json 复制代码
# 旧数据需要执行一次
POST /course/_update_by_query

让 ES 把已有文档重新扫一遍,生成 keyword 倒排索引即可(耗时视数据量而定)。

3、java代码

java 复制代码
// 是否模糊匹配
boolean isFuzzySearch;

BoolQueryBuilder nameQueryBuilder = QueryBuilders.boolQuery();
for (String keyword : keywords) {
    if (isFuzzySearch) {
        // 模糊搜索
        nameQueryBuilder.should(QueryBuilders.matchPhraseQuery("courseName", keyword));
    } else {
        // 精准搜索
        nameQueryBuilder.should(QueryBuilders.termQuery("courseName.keyword", keyword));
    }
}

三、总结

别忘记了修复旧数据,es给courseName字段新增了keyword类型的字段,默认为空。

至此,课程名称的不同,做到了精准搜索,相差的横杆不会被es索引忽略掉。

相关推荐
清心歌10 分钟前
记一次系统环境变量更改后在IDEA中无法读取新值的排查过程
java·后端·intellij-idea·idea
G探险者13 分钟前
聊聊流程编排框架LiteFlow
后端
随风,奔跑33 分钟前
Spring Security
java·后端·spring
智在碧得1 小时前
碧服智能体进化:AI赋能意图识别能力,“一问”更智能
大数据·人工智能·机器学习
饕餮争锋1 小时前
CLI为什么在大模型领域流行
后端·ai
蓝天守卫者联盟11 小时前
如何选择二氯甲烷回收设备厂家:技术路线与市场格局深度解析
大数据·人工智能·python·sqlite·tornado
xiaoduo AI1 小时前
客服机器人能否支持自动排班与请假?Agent 系统支持人员替班,夜间无人值守该如何应
大数据·人工智能·机器人
紧固视界2 小时前
2026上海紧固件专业展,紧固件设备集中展示平台
大数据·人工智能·上海紧固件展·紧固件展·上海紧固件专业展
DevOpenClub2 小时前
全国三甲医院主体信息 API 接口
java·大数据·数据库
言慢行善2 小时前
SpringBoot中的注解介绍
java·spring boot·后端