Elasticsearch 使用scroll滚动技术实现大数据量搜索、深度分页问题 和 search

基于scroll滚动技术实现大数据量搜索

如果一次性要查出来比如10万条数据,那么性能会很差,此时一般会采取用scroll滚动查询,一批一批的查,直到所有数据都查询完为止。

  1. scroll搜索会在第一次搜索的时候,保存一个当时的视图快照,之后只会基于该旧的视图快照提供数据搜索,如果这个期间数据变更,是不会让用户看到的

  2. 采用基于_doc(不使用_score)进行排序的方式,性能较高

  3. 每次发送scroll请求,我们还需要指定一个scroll参数,指定一个时间窗口,每次搜索请求只要在这个事件窗口内能完成就可以了

    复制代码
    # sort默认是相关度排序("sort":[{"FIELD":{"order":"desc"}}]),不按_score排序,按_doc排序
    # size设置的是这批查三条
    # 第一次查询会生成快照
    GET /lib3/user/_search?scroll=1m #这一批查询在一分钟内完成
    {
    	"query":{
    		"match":{}
    	},
    	"sort":[  
    		"_doc"
    	],
    	"size":3 
    }
    
    # 第二次查询通过第一次的快照ID来查询,后面以此类推
    GET /_search/scroll
    {
    	"scroll":"1m",
    	"scroll_id":"DnF1ZXJ5VGhIbkXIdGNoAwAAAAAAAAAdFkEwRENOVTdnUUJPWVZUd1p2WE5hV2cAAAAAAAAAHhZBMERDTIU3Z1FCT1|WVHdadIhOYVdnAAAAAAAAAB8WQTBEQ05VN2dRQk9ZVIR3WnZYTmFXZw=="
    }

基于 scroll 解决深度分页问题

原理上是对某次查询生成一个游标 scroll_id , 后续的查询只需要根据这个游标去取数据,直到结果集中返回的 hits 字段为空,就表示遍历结束。

注意:scroll_id 的生成可以理解为建立了一个临时的历史快照,在此之后的增删改查等操作不会影响到这个快照的结果。

使用 curl 进行分页读取过程如下:

  1. 先获取第一个 scroll_id,url 参数包括 /index/_type/ 和 scroll,scroll 字段指定了scroll_id 的有效生存期,以分钟为单位,过期之后会被es 自动清理。如果文档不需要特定排序,可以指定按照文档创建的时间返回会使迭代更高效。

    复制代码
    GET /product/info/_search?scroll=2m
    {
    	"query":{
    		"match_all":{
    		}
    	},
    	"sort":["_doc"]
    }
    
    # 返回结果
    {
      "_scroll_id": "DnF1ZXJ5VGhIbkXIdGNoAwAAAAAAAAAdFkEwRENOVTdnUUJPWVZUd1p2WE5hV2cAAAAAAAAAHhZBMERDTIU3Z1FCT1|WVHdadIhOYVdnAAAAAAAAAB8WQTBEQ05VN2dRQk9ZVIR3WnZYTmFXZw==",
      "took": 1,
      "timed_out": false,
      "_shards": {
      		"total": 1,
      		"successful": 1,
      		"failed": 0
      },
      "hits":{...}
    }
  2. 后续的文档读取上一次查询返回的scroll_id 来不断的取下一页,如果srcoll_id 的生存期很长,那么每次返回的 scroll_id 都是一样的,直到该 scroll_id 过期,才会返回一个新的 scroll_id。请求指定的 scroll_id 时就不需要 /index/_type 等信息了。每读取一页都会重新设置 scroll_id 的生存时间,所以这个时间只需要满足读取当前页就可以,不需要满足读取所有的数据的时间,1 分钟足以。

    复制代码
    GET /product/info/_search?scroll=DnF1ZXJ5VGhIbkXIdGNoAwAAAAAAAAAdFkEwRENOVTdnUUJPWVZUd1p2WE5hV2cAAAAAAAAAHhZBMERDTIU3Z1FCT1|WVHdadIhOYVdnAAAAAAAAAB8WQTBEQ05VN2dRQk9ZVIR3WnZYTmFXZw==
    {
    	"query":{
    		"match_all":{
    		}
    	},
    	"sort":["_doc"]
    }
    
    # 返回结果
    {
        "_scroll_id": "DnF1ZXJ5VGhIbkXIdGNoAwAAAAAAAAAdFkEwRENOVTdnUUJPWVZUd1p2WE5hV2cAAAAAAAAAHhZBMERDTIU3Z1FCT1|WVHdadIhOYVdnAAAAAAAAAB8WQTBEQ05VN2dRQk9ZVIR3WnZYTmFXZw==",
        "took": 106,
        "_shards": {
            "total": 1,
            "successful": 1,
            "failed": 0
        },
        "hits": {
            "total": 22424,
            "max_score": 1.0,
            "hits": [{
                    "_index": "product",
                    "_type": "info",
                    "_id": "did-519392_pdid-2010",
                    "_score": 1.0,
                    "_routing": "519392",
                    "_source": {
                        ....
                    }
                }
            ]
        }
    }
  3. 所有文档获取完毕之后,需要手动清理掉 scroll_id 。虽然es 会有自动清理机制,但是 srcoll_id 的存在会耗费大量的资源来保存一份当前查询结果集映像,并且会占用文件描述符。所以用完之后要及时清理。使用 es 提供的 CLEAR_API 来删除指定的 scroll_id。

    复制代码
    # 删掉指定的多个 srcoll_id 
    DELETE /_search/scroll -d 
    {
    	"scroll_id":[
    		"cXVlcnlBbmRGZXRjaDsxOzg3OTA4NDpTQzRmWWkwQ1Q1bUlwMjc0WmdIX2ZnOzA7"
    	]
    }
    
    # 删除掉所有索引上的 scroll_id 
    DELETE /_search/scroll/_all
    
    # 查询当前所有的scroll 状态
    GET /_nodes/stats/indices/_search?pretty
    
    # 返回结果
    {
      "cluster_name" : "200.200.107.232",
      "nodes" : {
        "SC4fYi0CT5mIp274ZgH_fg" : {
          "timestamp" : 1514346295736,
          "name" : "200.200.107.232",
          "transport_address" : "200.200.107.232:9300",
          "host" : "200.200.107.232",
          "ip" : [ "200.200.107.232:9300", "NONE" ],
          "indices" : {
            "search" : {
              "open_contexts" : 0,
              "query_total" : 975758,
              "query_time_in_millis" : 329850,
              "query_current" : 0,
              "fetch_total" : 217069,
              "fetch_time_in_millis" : 84699,
              "fetch_current" : 0,
              "scroll_total" : 5348,
              "scroll_time_in_millis" : 92712468,
              "scroll_current" : 0
            }
          }
        }
      }
    }

基于 search_after 实现深度分页

search_after 是 ES5.0 及之后版本提供的新特性,search_after 有点类似 scroll,但是和 scroll 又不一样,它提供一个活动的游标,通过上一次查询最后一条数据来进行下一次查询。

search_after 分页的方式和 scroll 有一些显著的区别,首先它是根据上一页的最后一条数据来确定下一页的位置,同时在分页请求的过程中,如果有索引数据的增删改查,这些变更也会实时的反映到游标上。

  • 第一页的请求和正常的请求一样。

    复制代码
    GET /order/info/_search
    {
        "size": 10,
        "query": {
            "match_all" : {
            }
        },
        "sort": [
            {"date": "asc"}
        ]
    }
    
    # 返回结果
    {
        "_index": "zmrecall",
        "_type": "recall",
        "_id": "60310505115909",
        "_score": null,
        "_source": {
          ...
          "date": 1545037514
        },
        "sort": [
        	1545037514
        ]
      }
  • 第二页的请求,使用第一页返回结果的最后一个数据的值,加上 search_after 字段来取下一页。注意:使用 search_after 的时候要将 from 置为 0 或 -1。

    复制代码
    curl -XGET 127.0.0.1:9200/order/info/_search
    {
        "size": 10,
        "query": {
            "match_all" : {
            }
        },
        "search_after": [1463538857], # 这个值与上次查询最后一条数据的sort值一致,支持多个
        "sort": [
            {"date": "asc"}
        ]
    }

注意

  • 如果 search_after 中的关键字为654,那么654323的文档也会被搜索到,所以在选择 search_after 的排序字段时需要谨慎,可以使用比如文档的id或者时间戳等。
  • search_after 适用于深度分页+ 排序 ,因为每一页的数据依赖于上一页最后一条数据,所以无法跳页请求
  • 返回的始终是最新的数据,在分页过程中数据的位置可能会有变更。这种分页方式更加符合 moa 的业务场景。
相关推荐
BillKu13 分钟前
Java + Spring Boot + Mybatis 插入数据后,获取自增 id 的方法
java·tomcat·mybatis
全栈凯哥14 分钟前
Java详解LeetCode 热题 100(26):LeetCode 142. 环形链表 II(Linked List Cycle II)详解
java·算法·leetcode·链表
chxii15 分钟前
12.7Swing控件6 JList
java
全栈凯哥16 分钟前
Java详解LeetCode 热题 100(27):LeetCode 21. 合并两个有序链表(Merge Two Sorted Lists)详解
java·算法·leetcode·链表
YuTaoShao17 分钟前
Java八股文——集合「List篇」
java·开发语言·list
PypYCCcccCc22 分钟前
支付系统架构图
java·网络·金融·系统架构
华科云商xiao徐43 分钟前
Java HttpClient实现简单网络爬虫
java·爬虫
扎瓦1 小时前
ThreadLocal 线程变量
java·后端
BillKu1 小时前
Java后端检查空条件查询
java·开发语言
jackson凌1 小时前
【Java学习笔记】String类(重点)
java·笔记·学习