ES索引检索课程名称时,同时支持模糊搜索和精准搜索

一、背景

课程列表有两个名称类似的课程,例如:

高中数学-预科拓展-高二上

高中数学预科拓展-高二上

当搜索关键字是"高中数学预科拓展-高二上" 或 "高中数学-预科拓展-高二上",搜索结果都能是上面两个课程。

而业务使用方希望看到的效果是,当搜索"高中数学预科拓展-高二上"时,只看到课程名称等于"高中数学预科拓展-高二上"的课程,而不展示另外那个"双胞胎"课程--"高中数学-预科拓展-高二上"。

也就是说,需要对课程名称进行精准匹配,而非模糊匹配。

但是,终端用户的需求是对课程名称进行模糊匹配。

所以,我们对接口的改造是,不同的接口,传入不同的参数,区分是否模糊搜索。

二、es索引检索的逻辑

1、现状

json 复制代码
  "mappings" : {
      "_doc" : {
        "properties" : {
          "courseName" : {
            "type" : "text"
          }
       }
   }

courseName是text类型的字段。

java的写法

es将自动对课程名称courseName进行分词,

java 复制代码
BoolQueryBuilder nameQueryBuilder = QueryBuilders.boolQuery();
for (String keyword : keywords) {
   nameQueryBuilder = nameQueryBuilder.should(QueryBuilders.matchPhraseQuery("courseName", keyword));
}

在 Elasticsearch 的 match_phrase 查询里,横杆 - 属于默认的停用字符(token filter 中的 standard 会把 - 当成分隔符),因此:

关键词1: 高中数学-预科拓展-高二

在倒排索引里会被拆成:

高中数学、预科拓展、高二

关键词1: 高中数学预科拓展高二

如果用的是 ik_max_word / standard 等分词器,同样也会被拆成:

高中数学、预科拓展、高二

所以两份文档的 token 列表完全一致,match_phrase 查询的 position 序列也相同,于是返回结果一样。

2、解决办法

不需要改原来的 text 字段,只要给它补一个 keyword 子字段即可;

已有数据也不会丢失,ES 会自动重新生成新子字段的索引。

json 复制代码
PUT /share_course_index/_mapping/_doc
{
  "properties": {
    "courseName": {
      "type": "text",
      "fields": {
        "keyword": {
          "type": "keyword",
          "ignore_above": 256
        }
      }
    }
  }
}

原 courseName 仍是 text,旧查询不受影响。

新增 courseName.keyword 用来做精准匹配,区分横杆、空格、大小写。

  • 修复旧数据

之后写入的数据会自动拥有 keyword 子字段;

json 复制代码
# 旧数据需要执行一次
POST /course/_update_by_query

让 ES 把已有文档重新扫一遍,生成 keyword 倒排索引即可(耗时视数据量而定)。

3、java代码

java 复制代码
// 是否模糊匹配
boolean isFuzzySearch;

BoolQueryBuilder nameQueryBuilder = QueryBuilders.boolQuery();
for (String keyword : keywords) {
    if (isFuzzySearch) {
        // 模糊搜索
        nameQueryBuilder.should(QueryBuilders.matchPhraseQuery("courseName", keyword));
    } else {
        // 精准搜索
        nameQueryBuilder.should(QueryBuilders.termQuery("courseName.keyword", keyword));
    }
}

三、总结

别忘记了修复旧数据,es给courseName字段新增了keyword类型的字段,默认为空。

至此,课程名称的不同,做到了精准搜索,相差的横杆不会被es索引忽略掉。

相关推荐
CS创新实验室1 小时前
CS实验室行业报告:生物医药与生物工程行业就业分析报告
大数据·人工智能·生物医药
老陈头聊SEO1 小时前
生成引擎优化(GEO)在提升用户体验与内容创作效率中的创新应用
其他·搜索引擎·seo优化
永远不会的CC2 小时前
浙江华昱欣实习(4月23日~ 4月19日)
后端·学习
二哈赛车手2 小时前
新人笔记---实现简易版的rag的bm25检索(利用ES),以及RAG上传时的ES与向量数据库双写
java·数据库·笔记·spring·elasticsearch·ai
无忧智库2 小时前
跨行业数据要素可信流通体系建设:打破信任壁垒的完整工程方法论(WORD)
大数据·人工智能
小王毕业啦2 小时前
2007-2024年 省级-农林牧渔总产值、农业总产值数据(xlsx)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
数据皮皮侠3 小时前
上市公司创新韧性数据(2000-2024)|顶刊同款 EIR 指数
大数据·人工智能·算法·智慧城市·制造
科研前沿3 小时前
纯视觉无感解算 + 动态数字孪生:室内外无感定位技术全新升级
大数据·人工智能·算法·重构·空间计算
直奔標竿3 小时前
Java开发者AI转型第二十五课!Spring AI 个人知识库实战(四)——RAG来源追溯落地,拒绝AI幻觉
java·开发语言·人工智能·spring boot·后端·spring
嘟嘟MD3 小时前
程序员副业 | 2026年4月复盘
后端·创业