ElasticSearch 全文检索相关性算分

文章目录

相关性
- 相关性Relevance
- 相关性算法
- - TF-IDF
  - BM25
- 通过Explain查看TF-IDF
- [boosting query](#boosting query)
[多字段查询相关性](#多字段查询相关性)
- [dis_max query最佳字段查询](#dis_max query最佳字段查询)
- [multi_match query](#multi_match query)
- - best_fields最佳匹配字段
  - [most_fields 多数字段搜索](#most_fields 多数字段搜索)
  - cross_fields跨字段搜索

多字段查询相关性

我们现在学会了使用boosting query查询来降低不想查询文档的相关性，但是这还不够我们平常工作使用，在工作中很多情况下都是多字段的查询

三种场景：

最佳字段 Best Fields

多字段之间相关竞争又相互关联。比如博客的title 和 body这样的字段。最终相关性评分来自最匹配字段
多数字段 Most Fields

处理英文内容时一种常见的手段。在主字段抽取词干，加入同义词，已匹配更多的文档。相同的文本加入子字段，以提供更准确的匹配。其他字段作为匹配文档提高相关度的信号，匹配字段越多越好。最终相关性评分来自所有匹配字段之和
混合字段 Cross Fields

一次查询需要在多个字段中确定信息，单个字段只能作为整体的一部分。例如人名，地址，图书信息，希望在任何这些列出的字段中找到尽可能多的词

dis_max query最佳字段查询

将所有与任意一个查询匹配的文档都作为结果返回，各文档采用字段上最匹配的评分作为该文档最终相关性评分。也就是取最大值max(a,b)

如果想要其他字段得分也参与，可以通过tie_breaker参数调整，文档最终得分_score = 最佳匹配字段得分 + 其他匹配字段得分 × tie_breaker值

准备案例数据

bash 复制代码

# 第一个文档是棕色的兔子brown rabbits       第二个文档是棕色的狐狸brown fox
DELETE /blogs
PUT /blogs/_doc/1
{
    "title": "Quick brown rabbits",
    "body":  "Brown rabbits are commonly seen."
}

PUT /blogs/_doc/2
{
    "title": "Keeping pets healthy",
    "body":  "My quick brown fox eats rabbits on a regular basis."
}

# 此时我如何要查询棕色的狐狸信息，但是显示的文档却是第一个文档相关度更高
GET /blogs/_search
{
  "query": {
    "bool": {
      "should": [
        { "match": { "title": "brown fox" } },
        { "match": { "body": "brown fox" } }
      ]
    }
  }
}

bool should的算法过程：

查询should语句中的两个查询
加和两个查询的评分
乘以匹配语句的总数
除以所有语句的总数

上述例子中，title和body属于竞争关系，不应该将分数简单叠加，而是应该找到单个最佳匹配的字段的评分。

使用最佳字段查询dis max query

bash 复制代码

# 使用 dis_max 最佳匹配，文档的最终得分就不再是相加，而是直接取最高匹配项的得分
GET /blogs/_search
{
  "explain": true, 
  "query": {
    "dis_max": {
      "queries": [
        { "match": { "title": "brown fox" } },
        { "match": { "body": "brown fox" } }
      ]
    }
  }
}

可以通过tie_breaker参数调整

tie_breaker参数的取值范围为[0,1]，如果为0代表使用最佳匹配字段，1代表所有字段匹配得分同等重要

文档最终得分_score = 最佳匹配字段得分 + 其他匹配字段得分 × tie_breaker值

bash 复制代码

# 使用 dis_max 最佳匹配，文档的最终得分就不再是相加，而是直接取最高匹配项的得分
# 如果使用 tie_breaker 参数，其他字段查询匹配的得分会乘以tie_breaker之后 再进行相加
GET /blogs/_search
{
  "explain": true, 
  "query": {
    "dis_max": {
      "queries": [
        { "match": { "title": "brown fox" } },
        { "match": { "body": "brown fox" } }
      ],
      "tie_breaker": 0.2
    }
  }
}

multi_match query

我们使用multi_match多字段匹配时，可以通过type参数来指定到底是使用最佳匹配字段还是使用多数字段

type为best_fields 使用最佳匹配字段方式。同时，它也可以添加参数tie_breaker
type 为 most_fields 表示使用所有字段匹配得分之和。等价于bool should查询方式
type 为 cross_fields 表示跨字段搜索，一次搜索的内容在多个字段中显示

best_fields最佳匹配字段

type为best_fields表示最佳匹配字段，文档相关度得分_score = max(其他匹配字段得分，最佳匹配字段得分)

可以添加tie_breaker参数，取值范围是[0,1]，文档相关度得分_score = 最佳匹配字段得分 + 其他匹配字段得分 × tie_breaker

type默认值就为best_fields，可以不用指定; 也就是说multi_match query查询默认情况下等价于dis_max query

bash 复制代码

# 还是上方的案例，查询棕色狐狸
# 此时使用的是 multi_match 查询，并且type指定为best_fields，同时还使用tie_breaker参数
POST /blogs/_search
{
  "query": {
    "multi_match": {
      "type": "best_fields",			# type指定为best_fields
      "query": "Brown fox",
      "fields": ["title","body"],
      "tie_breaker": 0.2				# 使用tie_breaker参数
    }
  }
}

第二个案例，准备数据

bash 复制代码

# 创建索引时指定默认分词器
PUT /employee
{
    "settings" : {
        "index" : {
            "analysis.analyzer.default.type": "ik_max_word"
        }
    }
}

POST /employee/_bulk
{"index":{"_id":1}}
{"empId":"1","name":"员工001","age":20,"sex":"男","mobile":"19000001111","salary":23343,"deptName":"技术部","address":"湖北省武汉市洪山区光谷大厦","content":"i like to write best elasticsearch article"}
{"index":{"_id":2}}
{"empId":"2","name":"员工002","age":25,"sex":"男","mobile":"19000002222","salary":15963,"deptName":"销售部","address":"湖北省武汉市江汉路","content":"i think java is the best programming language"}
{"index":{"_id":3}}
{"empId":"3","name":"员工003","age":30,"sex":"男","mobile":"19000003333","salary":20000,"deptName":"技术部","address":"湖北省武汉市经济开发区","content":"i am only an elasticsearch beginner"}
{"index":{"_id":4}}
{"empId":"4","name":"员工004","age":20,"sex":"女","mobile":"19000004444","salary":15600,"deptName":"销售部","address":"湖北省武汉市沌口开发区","content":"elasticsearch and hadoop are all very good solution, i am a beginner"}
{"index":{"_id":5}}
{"empId":"5","name":"员工005","age":20,"sex":"男","mobile":"19000005555","salary":19665,"deptName":"测试部","address":"湖北省武汉市东湖隧道","content":"spark is best big data solution based on scala, an programming language similar to java"}
{"index":{"_id":6}}
{"empId":"6","name":"员工006","age":30,"sex":"女","mobile":"19000006666","salary":30000,"deptName":"技术部","address":"湖北省武汉市江汉路","content":"i like java developer"}
{"index":{"_id":7}}
{"empId":"7","name":"员工007","age":60,"sex":"女","mobile":"19000007777","salary":52130,"deptName":"测试部","address":"湖北省黄冈市边城区","content":"i like elasticsearch developer"}
{"index":{"_id":8}}
{"empId":"8","name":"员工008","age":19,"sex":"女","mobile":"19000008888","salary":60000,"deptName":"技术部","address":"湖北省武汉市江汉大学","content":"i like spark language"}
{"index":{"_id":9}}
{"empId":"9","name":"员工009","age":40,"sex":"男","mobile":"19000009999","salary":23000,"deptName":"销售部","address":"河南省郑州市郑州大学","content":"i like java developer"}
{"index":{"_id":10}}
{"empId":"10","name":"张湖北","age":35,"sex":"男","mobile":"19000001010","salary":18000,"deptName":"测试部","address":"湖北省武汉市东湖高新","content":"i like java developer, i also like elasticsearch"}
{"index":{"_id":11}}
{"empId":"11","name":"王河南","age":61,"sex":"男","mobile":"19000001011","salary":10000,"deptName":"销售部","address":"河南省开封市河南大学","content":"i am not like java"}
{"index":{"_id":12}}
{"empId":"12","name":"张大学","age":26,"sex":"女","mobile":"19000001012","salary":11321,"deptName":"测试部","address":"河南省开封市河南大学","content":"i am java developer, java is good"}
{"index":{"_id":13}}
{"empId":"13","name":"李江汉","age":36,"sex":"男","mobile":"19000001013","salary":11215,"deptName":"销售部","address":"河南省郑州市二七区","content":"i like java and java is very best, i like it, do you like java"}
{"index":{"_id":14}}
{"empId":"14","name":"王技术","age":45,"sex":"女","mobile":"19000001014","salary":16222,"deptName":"测试部","address":"河南省郑州市金水区","content":"i like c++"}
{"index":{"_id":15}}
{"empId":"15","name":"张测试","age":18,"sex":"男","mobile":"19000001015","salary":20000,"deptName":"技术部","address":"河南省郑州市高新开发区","content":"i think spark is good"}

bash 复制代码

# multi_match全文检索 多字段匹配，type默认值为best_fields
# 默认使用的就是最佳匹配字段
GET /employee/_search
{
  "explain": true, 
  "query": {
    "multi_match": {
      "query": "elasticsearch beginner 湖北省 开封市",
      "fields": ["address", "content"],
      "type": "best_fields"
    }
  }
}

# 使用 tie_breaker 参数
GET /employee/_search
{
  "explain": true, 
  "query": {
    "multi_match": {
      "query": "elasticsearch beginner 湖北省 开封市",
      "fields": ["address", "content"],
      "type": "best_fields",
      "tie_breaker": 0.4				# 使用tie_breaker参数
    }
  }
}

most_fields 多数字段搜索

type为most_fields 表示最佳匹配字段，文档相关度得分_score = sum(所有匹配字段得分)，等价于bool should查询方式

bash 复制代码

# multi_match全文检索 多字段匹配，type指定为most_fields
GET /employee/_search
{
  "explain": true, 
  "query": {
    "multi_match": {
      "query": "elasticsearch beginner 湖北省 开封市",
      "fields": ["address", "content"],
      "type": "most_fields"
    }
  }
}

案例数据准备

bash 复制代码

DELETE /titles
PUT /titles
{
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "analyzer": "english",		# 指定分词器
        "fields": {
          "std": {		# 指定一个子类型位srd
            "type": "text",
            "analyzer": "standard"	# 指定分词器
          }
        }
      }
    }
  }
}

POST titles/_bulk
{ "index": { "_id": 1 }}
{ "title": "My dog barks" }
{ "index": { "_id": 2 }}
{ "title": "I see a lot of barking dogs on the road " }

# 结果与预期不匹配，此时我想查询id为2的文档，但是id为1文档的相关度更高
GET /titles/_search
{
  "query": {
    "match": {
      "title": "barking dogs"
    }
  }
}

用广度匹配字段title包括尽可能多的文档------以提升召回率------同时又使用字段title.std 作为信号将相关度更高的文档置于结果顶部。

bash 复制代码

GET /titles/_search
{
  "explain": true, 
  "query": {
    "multi_match": {
      "query": "barking dogs",
      "fields": ["title","title.std"],
      "type": "most_fields"
    }
  }
}

每个字段对于最终评分的贡献可以通过自定义值boost 来控制。比如，使title 字段更为重要,这样同时也降低了其他信号字段的作用：

bash 复制代码

#增加title字段的权重
GET /titles/_search
{
  "query": {
    "multi_match": {
      "query": "barking dogs",
      "type": "most_fields",
      "fields": [
        "title^10",
        "title.std"
      ]
    }
  }
}

cross_fields跨字段搜索

搜索内容在多个字段中都显示

案例数据

bash 复制代码

DELETE /address
PUT /address
{
    "settings" : {
        "index" : {
            "analysis.analyzer.default.type": "ik_max_word"
        }
    }
}

PUT /address/_bulk
{ "index": { "_id": "1"} }
{"province": "湖南","city": "长沙"}
{ "index": { "_id": "2"} }
{"province": "湖南","city": "常德"}
{ "index": { "_id": "3"} }
{"province": "广东","city": "广州"}
{ "index": { "_id": "4"} }
{"province": "湖南","city": "邵阳"}

我想查询湖南常德的数据，但是搜索的结果会把id=1 和 id=4的文档都显示出来，因为湖南这个term词项会匹配

bash 复制代码

# 查询湖南常德的文档数据，
# 使用most_fields的方式结果不符合预期，不支持operator
GET /address/_search
{
  "query": {
    "multi_match": {
      "query": "湖南常德",
      "fields": ["province", "city"]
    }
  }
}

此时就可以使用type指定为cross_fields，这样支持operator了

bash 复制代码

# 与copy_to相比，其中一个优势就是它可以在搜索时为单个字段提升权重。
GET /address/_search
{
  "query": {
    "multi_match": {
      "query": "湖南常德",
      "fields": ["province", "city"],
      "type": "cross_fields",
      "operator": "and"
    }
  }
}

可以用copy...to 解决，但是需要额外的存储空间

bash 复制代码

DELETE /address
# copy_to参数允许将多个字段的值复制到组字段中，然后可以将其作为单个字段进行查询
PUT /address
{
  "mappings" : {
      "properties" : {
        "province" : {
          "type" : "keyword",
          "copy_to": "full_address"			# 使用copy_to
        },
        "city" : {
          "type" : "text",
          "copy_to": "full_address"			# 使用copy_to
        }
      }
    },
    "settings" : {
        "index" : {
            "analysis.analyzer.default.type": "ik_max_word"
        }
    }
}

PUT /address/_bulk
{ "index": { "_id": "1"} }
{"province": "湖南","city": "长沙"}
{ "index": { "_id": "2"} }
{"province": "湖南","city": "常德"}
{ "index": { "_id": "3"} }
{"province": "广东","city": "广州"}
{ "index": { "_id": "4"} }
{"province": "湖南","city": "邵阳"}

# 此时就可以通过 full_address 字段来进行搜索匹配
GET /address/_search
{
  "query": {
    "match": {
      "full_address": {
        "query": "湖南常德",
        "operator": "and"
      }
    }
  }
}

ElasticSearch 全文检索相关性 算分

文章目录

相关性

相关性Relevance

相关性算法

TF-IDF

BM25

通过Explain查看TF-IDF

boosting query

多字段查询 相关性

dis_max query最佳字段查询

multi_match query

best_fields最佳匹配字段

most_fields 多数字段搜索

cross_fields跨字段搜索

ElasticSearch 全文检索相关性算分

多字段查询相关性